Spaces:

incllude
/

Test

Paused

App Files Files Community

Архипов Дмитрий commited on 26 days ago

Commit

565e754

1 Parent(s): 1272224

test

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

Dockerfile +22 -1
app.py +429 -0
classification_results.csv +0 -0
contestin.ipynb +331 -0
env.example.txt +23 -0
frontend.py +404 -0
news_classification_langgraph.ipynb +697 -0
news_classification_pipeline.ipynb +0 -0
qa_evaluation_example.ipynb +465 -0
question_generation.ipynb +591 -0
requirements.txt +34 -3
root.crt +59 -0
server.py +194 -0
src/__init__.py +5 -0
src/config.py +49 -0
src/data/__init__.py +0 -0
src/data/__pycache__/__init__.cpython-313.pyc +0 -0
src/data/__pycache__/parser.cpython-313.pyc +0 -0
src/data/__pycache__/splitter.cpython-313.pyc +0 -0
src/data/clean.py +71 -0
src/data/parser.py +126 -0
src/data/splitter.py +132 -0
src/dataset/rbc/channel_rbc_news_posts.csv +0 -0
src/dataset/test_cases.csv +0 -0
src/db_utils/__init__.py +0 -0
src/db_utils/__pycache__/__init__.cpython-313.pyc +0 -0
src/db_utils/__pycache__/history_utils.cpython-313.pyc +0 -0
src/db_utils/__pycache__/qdrant_utils.cpython-313.pyc +0 -0
src/db_utils/__pycache__/sql_utils.cpython-313.pyc +0 -0
src/db_utils/db_example_usage.ipynb +881 -0
src/db_utils/history_utils.py +269 -0
src/db_utils/qdrant_utils.py +58 -0
src/db_utils/sql_utils.py +92 -0
src/evaluation/__init__.py +16 -0
src/evaluation/__pycache__/__init__.cpython-313.pyc +0 -0
src/evaluation/__pycache__/qa_evaluator.cpython-313.pyc +0 -0
src/evaluation/qa_evaluator.py +254 -0
src/evaluation/score_system.ipynb +687 -0
src/parser/__pycache__/__init__.cpython-313.pyc +0 -0
src/parser/__pycache__/pyrosource.cpython-313.pyc +0 -0
src/rag/__init__.py +1 -0
src/rag/__pycache__/__init__.cpython-313.pyc +0 -0
src/rag/__pycache__/llm.cpython-313.pyc +0 -0
src/rag/__pycache__/question_enricher.cpython-313.pyc +0 -0
src/rag/__pycache__/rag.cpython-313.pyc +0 -0
src/rag/__pycache__/retriever.cpython-313.pyc +0 -0
src/rag/llm.py +13 -0
src/rag/question_enricher.py +99 -0
src/rag/rag.py +90 -0
src/rag/retriever.py +27 -0

Dockerfile CHANGED Viewed

@@ -1,5 +1,23 @@
 FROM python:3.13.5-slim
 WORKDIR /app
 RUN apt-get update && apt-get install -y \
@@ -10,6 +28,9 @@ RUN apt-get update && apt-get install -y \
 COPY requirements.txt ./
 COPY src/ ./src/
 RUN pip3 install -r requirements.txt
@@ -17,4 +38,4 @@ EXPOSE 8501
 HEALTHCHECK CMD curl --fail http://localhost:8501/_stcore/health
-ENTRYPOINT ["streamlit", "run", "src/streamlit_app.py", "--server.port=8501", "--server.address=0.0.0.0"]

+ARG DB_USER
+ARG DB_PASS
+ARG DB_HOST
+ARG DB_PORT
+ARG DB_NAME
+ARG PATH_TO_CERT
+ARG QDRANT_URL
+ARG OPENROUTER_API_KEY
 FROM python:3.13.5-slim
+ENV DB_USER=$DB_USER
+ENV DB_PASS=$DB_PASS
+ENV DB_HOST=$DB_HOST
+ENV DB_PORT=$DB_PORT
+ENV DB_NAME=$DB_NAME
+ENV PATH_TO_CERT=$PATH_TO_CERT
+ENV QDRANT_URL=$QDRANT_URL
+ENV OPENROUTER_API_KEY=$OPENROUTER_API_KEY
 WORKDIR /app
 RUN apt-get update && apt-get install -y \
 COPY requirements.txt ./
 COPY src/ ./src/
+COPY frontend.py ./
+COPY .streamlit/ ./.streamlit/
+COPY root.crt ./
 RUN pip3 install -r requirements.txt
 HEALTHCHECK CMD curl --fail http://localhost:8501/_stcore/health
+ENTRYPOINT ["streamlit", "run", "frontend.py"]

app.py ADDED Viewed

	@@ -0,0 +1,429 @@

+"""
+Streamlit Frontend для RAG вопросно-ответной системы
+Чат-интерфейс с поддержкой нескольких диалогов
+"""
+import streamlit as st
+from datetime import datetime, timedelta
+from typing import List, Dict, Optional
+import uuid
+from src import RAG
+from src.db_utils.history_utils import (
+    init_history_table,
+    log_query,
+    get_all_history,
+    get_history_by_dialogue,
+    search_history,
+    get_history_stats,
+    delete_history,
+    get_recent_dialogues
+)
+# --- Инициализация RAG и БД ---
+@st.cache_resource(show_spinner=False)
+def get_rag():
+    """Initialize RAG once and cache it"""
+    return RAG(
+        embed_model_name = "Qwen/Qwen3-Embedding-0.6B",
+        embed_index_name = "recursive_Qwen3-Embedding-0.6B"
+    )
+@st.cache_resource(show_spinner=False)
+def init_db():
+    """Initialize database once and cache it"""
+    try:
+        init_history_table()
+        return True
+    except Exception as e:
+        st.error(f"⚠️ Не удалось инициализировать таблицу истории: {e}")
+        return False
+# --- Session State Management ---
+def init_session_state():
+    """Initialize session state with caching"""
+    if "current_dialogue_id" not in st.session_state:
+        st.session_state.current_dialogue_id = None
+    if "chat_list" not in st.session_state:
+        st.session_state.chat_list = []
+    if "current_chat_messages" not in st.session_state:
+        st.session_state.current_chat_messages = []
+    if "chat_list_loaded" not in st.session_state:
+        st.session_state.chat_list_loaded = False
+def generate_dialogue_id() -> str:
+    """Generate unique dialogue ID"""
+    return f"chat_{datetime.now().strftime('%Y%m%d_%H%M%S')}_{uuid.uuid4().hex[:6]}"
+def get_chat_display_name(dialogue_id: str, first_query: str = None) -> str:
+    """Get display name for chat - always from DB, no caching"""
+    if first_query:
+        # Use first 40 chars of first query as name
+        name = first_query[:40] + "..." if len(first_query) > 40 else first_query
+        return name
+    return "Новый диалог"
+# --- Chat Management Functions ---
+def load_chats_list():
+    """Load and cache chats list from DB"""
+    try:
+        st.session_state.chat_list = get_recent_dialogues(limit=50)
+        st.session_state.chat_list_loaded = True
+    except Exception as e:
+        st.error(f"❌ Ошибка при загрузке чатов: {e}")
+        st.session_state.chat_list = []
+def create_new_chat():
+    """Create a new chat"""
+    new_id = generate_dialogue_id()
+    st.session_state.current_dialogue_id = new_id
+    st.session_state.current_chat_messages = []
+    st.session_state.needs_rerun = True
+    return new_id
+def switch_to_chat(dialogue_id: str):
+    """Switch to an existing chat and load its messages"""
+    st.session_state.current_dialogue_id = dialogue_id
+    load_current_chat_messages()
+    st.session_state.needs_rerun = True
+def load_current_chat_messages():
+    """Load messages for current chat from DB and cache"""
+    if not st.session_state.current_dialogue_id:
+        st.session_state.current_chat_messages = []
+        return
+    try:
+        st.session_state.current_chat_messages = get_history_by_dialogue(
+            st.session_state.current_dialogue_id
+        )
+    except Exception as e:
+        st.error(f"❌ Ошибка при загрузке сообщений: {e}")
+        st.session_state.current_chat_messages = []
+def get_current_chat_messages() -> List[Dict]:
+    """Get cached messages for current chat"""
+    return st.session_state.current_chat_messages
+def send_message(query: str) -> Optional[Dict]:
+    """Send a message in current chat and update cache"""
+    try:
+        if not st.session_state.current_dialogue_id:
+            create_new_chat()
+        # Get RAG and invoke with cached history
+        rag = get_rag()
+        # Use cached messages
+        current_history = get_current_chat_messages()
+        # Pass history to RAG (it will use last N messages internally for enrichment)
+        result = rag.invoke(query, history=current_history)
+        # Log to history DB
+        query_id = log_query(
+            query=query,
+            answer=result.get("answer", ""),
+            reason=result.get("reason", ""),
+            dialogue_id=st.session_state.current_dialogue_id
+        )
+        result["query_id"] = query_id
+        # Update only current messages, not all chats
+        load_current_chat_messages()
+        # Mark that we need to refresh chat list (but don't do it immediately)
+        st.session_state.chat_list_loaded = False
+        st.session_state.needs_rerun = True
+        return result
+    except Exception as e:
+        st.error(f"❌ Ошибка при отправке сообщения: {e}")
+        return None
+def delete_chat(dialogue_id: str) -> bool:
+    """Delete a chat from DB and update cache"""
+    try:
+        delete_history(dialogue_id=dialogue_id)
+        # If deleted current chat, clear selection
+        if st.session_state.current_dialogue_id == dialogue_id:
+            st.session_state.current_dialogue_id = None
+            st.session_state.current_chat_messages = []
+        # Mark that we need to reload chat list
+        st.session_state.chat_list_loaded = False
+        st.session_state.needs_rerun = True
+        return True
+    except Exception as e:
+        st.error(f"❌ Ошибка при удалении чата: {e}")
+        return False
+# --- Page: Chat Interface ---
+def page_chat():
+    """Main chat interface page"""
+    # Custom CSS to fix chat input at the bottom + keyboard shortcuts
+    st.markdown("""
+        <style>
+        /* Fix chat input at the bottom of main content area */
+        section[data-testid="stSidebar"] ~ div .stChatInput {
+            position: fixed;
+            bottom: 0;
+            background: white;
+            padding: 1rem;
+            z-index: 999;
+            border-top: 1px solid #e6e6e6;
+            margin-left: 0;
+        }
+        /* Add padding to main content to prevent overlap with fixed input */
+        .main .block-container {
+            padding-bottom: 100px;
+        }
+        /* Dark mode support */
+        [data-testid="stAppViewContainer"][data-theme="dark"] section[data-testid="stSidebar"] ~ div .stChatInput {
+            background: rgb(14, 17, 23);
+            border-top: 1px solid #333;
+        }
+        /* Adjust width to account for sidebar */
+        @media (min-width: 768px) {
+            section[data-testid="stSidebar"] ~ div .stChatInput {
+                left: var(--sidebar-width, 21rem);
+                right: 0;
+            }
+        }
+        /* When sidebar is collapsed */
+        section[data-testid="stSidebar"][aria-expanded="false"] ~ div .stChatInput {
+            left: 0;
+        }
+        </style>
+        <script>
+        // Add keyboard shortcuts support
+        document.addEventListener('DOMContentLoaded', function() {
+            // Find chat input field
+            const observer = new MutationObserver(function(mutations) {
+                const chatInput = document.querySelector('textarea[data-testid="stChatInput"]');
+                if (chatInput && !chatInput.hasAttribute('data-shortcut-attached')) {
+                    chatInput.setAttribute('data-shortcut-attached', 'true');
+                    // Add keyboard event listener
+                    chatInput.addEventListener('keydown', function(e) {
+                        // Enter (without Shift) - send message
+                        if (e.key === 'Enter' && !e.shiftKey) {
+                            e.preventDefault();
+                            // Trigger the send button
+                            const sendButton = document.querySelector('button[kind="primary"]');
+                            if (sendButton) {
+                                sendButton.click();
+                            }
+                        }
+                        // Ctrl+Enter or Cmd+Enter - send message (alternative)
+                        else if (e.key === 'Enter' && (e.ctrlKey || e.metaKey)) {
+                            e.preventDefault();
+                            const sendButton = document.querySelector('button[kind="primary"]');
+                            if (sendButton) {
+                                sendButton.click();
+                            }
+                        }
+                        // Shift+Enter - new line (default behavior)
+                    });
+                }
+            });
+            observer.observe(document.body, {
+                childList: true,
+                subtree: true
+            });
+        });
+        </script>
+    """, unsafe_allow_html=True)
+    # Check if we have a current chat
+    if not st.session_state.current_dialogue_id:
+        # Show welcome screen
+        st.title("💬 Чат с RAG системой")
+        st.markdown("---")
+        col1, col2, col3 = st.columns([1, 2, 1])
+        with col2:
+            st.info("👋 Добро пожаловать! Создайте новый чат или выберите существующий из списка слева.")
+            if st.button("🆕 Начать новый чат", type="primary", use_container_width=True):
+                create_new_chat()
+        return
+    # Get cached messages
+    current_messages = get_current_chat_messages()
+    # Display chat header
+    if current_messages:
+        chat_name = get_chat_display_name(
+            st.session_state.current_dialogue_id,
+            current_messages[0]["query"]
+        )
+    else:
+        chat_name = "Новый диалог"
+    col1, col2 = st.columns([4, 1])
+    with col1:
+        st.title(f"💬 {chat_name}")
+    with col2:
+        if st.button("🗑️ Удалить чат", use_container_width=True):
+            if delete_chat(st.session_state.current_dialogue_id):
+                st.success("✅ Чат удален")
+    st.markdown("---")
+    # Chat messages container - load from DB
+    if not current_messages:
+        st.info("📝 Начните диалог, задав первый вопрос ниже")
+    else:
+        # Display all messages
+        for msg in current_messages:
+            # User message
+            with st.chat_message("user"):
+                st.markdown(msg["query"])
+                timestamp_str = msg.get("timestamp", "")
+                try:
+                    dt = datetime.fromisoformat(timestamp_str)
+                    st.caption(f"🕐 {dt.strftime('%H:%M:%S')}")
+                except:
+                    pass
+            # Assistant message
+            with st.chat_message("assistant"):
+                st.markdown(msg["answer"])
+                # Show reasoning in expander
+                if msg.get("reason"):
+                    with st.expander("📝 Обоснование"):
+                        st.markdown(msg["reason"])
+    # Input area - fixed at the bottom via CSS
+    query = st.chat_input(
+        "Введите ваш вопрос...",
+        key="chat_input"
+    )
+    if query:
+        # Send message and get response
+        with st.spinner("🤔 Думаю..."):
+            result = send_message(query)
+# --- Main App ---
+def main():
+    st.set_page_config(
+        page_title="RAG Chat System",
+        page_icon="💬",
+        layout="wide",
+        initial_sidebar_state="expanded"
+    )
+    # Initialize session state FIRST (before any other operations)
+    init_session_state()
+    # Initialize needs_rerun flag if not exists
+    if "needs_rerun" not in st.session_state:
+        st.session_state.needs_rerun = False
+    # Initialize history table once using cache
+    init_db()
+    # Load chats list if not loaded yet
+    if not st.session_state.chat_list_loaded:
+        load_chats_list()
+    # Sidebar
+    with st.sidebar:
+        st.title("💬 RAG Chat")
+        # New chat button
+        if st.button("➕ Новый чат", use_container_width=True, type="primary"):
+            create_new_chat()
+        st.markdown("---")
+        # Chats list - use cached
+        col1, col2 = st.columns([3, 1])
+        with col1:
+            st.subheader("📝 Ваши чаты")
+        with col2:
+            if st.button("🔄", help="Обновить список чатов"):
+                st.session_state.chat_list_loaded = False
+                load_chats_list()
+        if not st.session_state.chat_list:
+            st.info("Нет чатов. Создайте новый!")
+        else:
+            # Display chats from cache
+            for chat in st.session_state.chat_list:
+                dialogue_id = chat["dialogue_id"]
+                message_count = chat.get("message_count", 0)
+                started_at = chat.get("started_at", "")
+                # Get chat name (only load history if chat has messages)
+                if message_count > 0:
+                    history = get_history_by_dialogue(dialogue_id)
+                    first_query = history[0]["query"] if history else None
+                else:
+                    first_query = None
+                chat_name = get_chat_display_name(dialogue_id, first_query)
+                # Format time
+                try:
+                    dt = datetime.fromisoformat(started_at)
+                    time_str = dt.strftime('%d.%m %H:%M')
+                except:
+                    time_str = ""
+                # Check if this is current chat
+                is_current = dialogue_id == st.session_state.current_dialogue_id
+                # Format button text with chat name and metadata
+                button_text = f"{'📌' if is_current else '💬'} {chat_name}\n💬 {message_count} • {time_str}"
+                if st.button(
+                    button_text,
+                    key=f"chat_{dialogue_id}",
+                    use_container_width=True,
+                    type="primary" if is_current else "secondary"
+                ):
+                    switch_to_chat(dialogue_id)
+    # Handle rerun at the end if needed
+    if st.session_state.needs_rerun:
+        st.session_state.needs_rerun = False
+        st.rerun()
+    # Main content area
+    page_chat()
+if __name__ == "__main__":
+    main()

classification_results.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

contestin.ipynb ADDED Viewed

	@@ -0,0 +1,331 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "0bc42803",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import pandas as pd\n",
+    "\n",
+    "data = pd.read_csv('src/dataset/rbc/channel_rbc_news_posts.csv')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 21,
+   "id": "4400213e",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "count                             4847\n",
+       "mean     2025-09-14 12:58:58.353620736\n",
+       "min                2025-04-15 00:00:00\n",
+       "25%                2025-08-08 00:00:00\n",
+       "50%                2025-09-23 00:00:00\n",
+       "75%                2025-10-28 00:00:00\n",
+       "max                2025-12-03 00:00:00\n",
+       "Name: message_dt, dtype: object"
+      ]
+     },
+     "execution_count": 21,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "data[\"message_dt\"] = pd.to_datetime(data[\"message_dt\"])\n",
+    "data = data.sort_values(\"message_dt\")\n",
+    "data[\"message_dt\"].describe()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 38,
+   "id": "ed3c14d3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "data = data.sort_values(\"views\", ascending=False)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 41,
+   "id": "85a0528d",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "'▪️Роскомнадзор сообщил об ограничении звонков через Telegram и *WhatsApp.\\n\\n«По данным правоохранительных органов и многочисленных обращений граждан, иностранные мессенджеры Telegram и WhatsApp стали основными голосовыми сервисами, используемыми для обмана и вымогательства денег, вовлечения в диверсионную и террористическую деятельность российских граждан», – пояснили РБК в пресс-службе ведомства. \\n\\nНикаких иных ограничений функционала в Telegram и WhatsApp не вводится, подчеркивают в Роскомнадзоре. \\n\\n*WhatsApp принадлежит Meta, деятельность которой признана в России и экстремистской и запрещена. \\n\\n🐚 Картина дня — в телеграм-канале РБК'"
+      ]
+     },
+     "execution_count": 41,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "data.iloc[0][\"content\"]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 34,
+   "id": "8458b416",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAigAAAGdCAYAAAA44ojeAAAAOnRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjEwLjgsIGh0dHBzOi8vbWF0cGxvdGxpYi5vcmcvwVt1zgAAAAlwSFlzAAAPYQAAD2EBqD+naQAAPgpJREFUeJzt3QmYFNW58PG32YZ9l01AUIgbiBqXuCTRyJUoUcnNpvEmfCZXo2KiMY8LuXEhJoFsXmJCQM01mEQlJhEXFJSgArLv+74OyzCsszLDMFPfc2roppfq6qruqu7TXf/f8/T0dHd11alTp6reOkt1yDAMQwAAADTSJNcJAAAAiEeAAgAAtEOAAgAAtEOAAgAAtEOAAgAAtEOAAgAAtEOAAgAAtEOAAgAAtNNMNNPQ0CD79u2Tdu3aSSgUynVyAACAA+q+rxUVFdKrVy9p0qRJ4QUoKjjp06dPrpMBAADSUFxcLL1795aCC1BUzUl4Bdu3b5/r5AAAAAfKy8vNCobwebzgApRws44KTghQAADIL151z6CTLAAA0A4BCgAA0A4BCgAA0A4BCgAA0A4BCgAA0A4BCgAA0A4BCgAA0A4BCgAA0A4BCgAAyP8AZc6cOXLLLbeYPwak7hb35ptvRj6rq6uTxx57TAYPHixt2rQxp/n2t79t/r4OAACAbwFKVVWVDBkyRCZMmJDwWXV1tSxfvlyeeOIJ8/mNN96QTZs2ya233up2MQAAIMBChvp95HS/HArJ1KlTZcSIEUmnWbJkiVxxxRWya9cu6du3r6MfG+rQoYOUlZXxWzwAAOQJr8/fvvdBUQlVgUzHjh0tP6+trTVXKvqRKyVlNTJp9jY5WnUiZ2kAAAA+Byg1NTVmn5Q77rgjaTQ1duxYM+IKP9RPNefKN19cKOOmb5Qfvr4yZ2kAAAA+Biiqw+zXv/51US1IEydOTDrd6NGjzVqW8KO4uDhn22X7oSrzec7mgzlLAwAAEGnmZ3Ci+p18+OGHtm1RRUVF5gMAAMC3ACUcnGzZskU++ugj6dKli9eLAAAABc51gFJZWSlbt26NvN6xY4esXLlSOnfuLD179pSvfvWr5hDjadOmSX19vZSUlJjTqc9btGjhbeoBAEBBch2gLF26VK6//vrI64cffth8HjlypDz99NPy9ttvm68vvvjimO+p2pTrrrsu8xQDAICC5zpAUUGG3a1TMritCgAAgInf4rFAiAUAQG4RoAAAAO0QoAAAAO0QoAAAAO0QoAAAAO0QoAAAAO0QoAAAAO0QoAAAAO0QoAAAAO0QoAAAAO0QoAAAAO0QoAAAAO0QoAAAAO0QoAAAAO0QoFgw+DljAAByigAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAABohwAFAADkf4AyZ84cueWWW6RXr14SCoXkzTffjPncMAx58sknpWfPntKqVSsZOnSobNmyxcs0AwCAAuc6QKmqqpIhQ4bIhAkTLD//1a9+Jc8995xMmjRJFi1aJG3atJFhw4ZJTU2NF+kFAAAB0MztF2666SbzYUXVnowfP15+8pOfyG233Wa+95e//EW6d+9u1rTcfvvtmacYAAAUPE/7oOzYsUNKSkrMZp2wDh06yJVXXikLFiyw/E5tba2Ul5fHPHRWWlEjk2Zvk8OVtUmn2VpaIS/O2S41dfVZTRsAAIGtQbGjghNF1ZhEU6/Dn8UbO3asjBkzRvLF/3tpiazfXy4fbSyVv3/vKstphj47x3wur6mTH914bpZTCABA/sv5KJ7Ro0dLWVlZ5FFcXCw6U8GJsmjHkZTTrth9LAspAgCg8HgaoPTo0cN8PnDgQMz76nX4s3hFRUXSvn37mAcAAAg2TwOU/v37m4HIrFmzIu+pPiVqNM9VV1k3hwAAAGTcB6WyslK2bt0a0zF25cqV0rlzZ+nbt6889NBD8rOf/UwGDhxoBixPPPGEec+UESNGuF0UAAAIKNcBytKlS+X666+PvH744YfN55EjR8rkyZPl0UcfNe+Vcs8998ixY8fk2muvlRkzZkjLli29TTkAAChYrgOU6667zrzfSTLq7rI//elPzUfQGZI8nwAAgMajeAAAAOIRoAAAAO0QoAAAAO0QoAAAAO0QoAAAAO0QoAAAAO0QoAAAAO0QoAAAAO0QoAAAAO0QoAAAAO0QoAAAAO0QoPjI5ieLAACADQIUAACgHQIUAACgHQIUAACgHQIUAACgHQIUAACgHQIUAACgHQIUAACgHQIUAACgncAGKJW1J+X52dtk9+HqXCcFAADECWyA8rNp62Xs9I3yxd/NyXVSAABAnMAGKAu3Hzafq0/U5zopAAAgTmADlGzgt3gAAEgPAQoAANAOAQoAANAOAQoAANBOYAOUUCiU6yQAAIAkAhugAAAAfRGgAAAA7RCgAAAA7RCgAAAA7RCgAAAA7RCgAAAA7RCgAAAA7RCg+MgQw8/ZAwBQsAhQAACAdghQAACAdgIboHCjewAA9BXYAAUAAOiLAAUAAGiHAAUAAGiHAAUAAGiHAAUAAGiHAAUAABR+gFJfXy9PPPGE9O/fX1q1aiXnnHOOPPPMM2IY3FUVAAA400w89stf/lImTpwoL7/8slx44YWydOlSueuuu6RDhw7ygx/8QIKEmAwAAE0ClPnz58ttt90mw4cPN1/369dPXnvtNVm8eLHXiwIAAAXK8yaeq6++WmbNmiWbN282X69atUo++eQTuemmmyynr62tlfLy8piHTreSfX9diUxfsz/p5/UNhrz0yQ5Zu7cs7aQs2n5YXlu8O+3vAwBQaDyvQXn88cfNIOO8886Tpk2bmn1Sfv7zn8udd95pOf3YsWNlzJgxoqOaunr53l+Xmf+vevJG6dC6ecI0/1q+R346bb35/85xjbVGbn3jhYXm84BubeXyfp0zSjMAAIXA8xqU119/XV555RV59dVXZfny5WZflN/85jfms5XRo0dLWVlZ5FFcXCy6OFHfEPm/6sRJy2k27q/wbHnFR6o9mxcAAPnM8xqURx55xKxFuf32283XgwcPll27dpk1JSNHjkyYvqioyHwAAAD4VoNSXV0tTZrEzlY19TQ0nK6NAAAAyGoNyi233GL2Oenbt685zHjFihXy7LPPyne+8x2vFwUAAAqU5wHK73//e/NGbffff7+UlpZKr1695Hvf+548+eSTks+ycZs57psCAIBPAUq7du1k/Pjx5iPfORmJHHI4XBkAADjHb/EAAADtEKAAAADtEKD42G+En0cEACA9gQ1Q6DoCAIC+AhugeIVOsgAAeI8ABQAAaIcABQAAaIcAxSEjC3dRo1MtAACNCFBshBx0MKGzLQAA3iNAAQAA2iFAAQAA2iFAAQAA2iFAAQAA2glsgOKkAywAAMiNwAYoWcG4YQAA0kKAAgAAtEOAErCbwQEAkA8IUGxE91IhdgAAIHsIUDJEX1sAALxHgAIAALRDgJIFe48dl0mzt0nZ8bpsLA4AgLzXLNcJyHdO+qbc9od5cqiyVtbuLZM/fPPSbCQLAIC8Rg1KFqjgRJm/7XA2FgcAQN4jQMkQnWQBAPBeYAMUbnQPAIC+Ahug6HgjNm7TBgBAIwIUHxmEHAAApIUAJcP+JfwqMgAA3iNAAQAA2iFAAQAA2iFAyfAmbPwCMQAA3iNA8VGIwcwAAKSFACVDdp1kGcUDAEB6CFCyiPucAADgTGADFG5RDwCAvgIboGiJKhYAAEwEKB6O6AEAAN4gQMkQPzoIAID3CFB8RK0LAADpIUCx4aRVx8uWH4YlAwDQiAAFAABohwBFI9x5FgCARgQoWewkS58UAACcIUDxETeDAwAgPQQoPnJbY0InWQAAfAxQ9u7dK//1X/8lXbp0kVatWsngwYNl6dKlks/9PQgeAADInmZez/Do0aNyzTXXyPXXXy/Tp0+XM844Q7Zs2SKdOnWSgsSd2gAA0D9A+eUvfyl9+vSRP//5z5H3+vfv7/ViAABAAfO8ieftt9+Wyy67TL72ta9Jt27d5JJLLpEXX3wx6fS1tbVSXl4e8wAAAMHmeYCyfft2mThxogwcOFDef/99ue++++QHP/iBvPzyy5bTjx07Vjp06BB5qNoXXRhOernyI4IAAOgfoDQ0NMill14qv/jFL8zak3vuuUfuvvtumTRpkuX0o0ePlrKyssijuLhYCoWRTsADAAC8D1B69uwpF1xwQcx7559/vuzevdty+qKiImnfvn3MI6/QSRYAAP0DFDWCZ9OmTTHvbd68Wc466yyvFwUAAAqU5wHKD3/4Q1m4cKHZxLN161Z59dVX5YUXXpBRo0Z5vaiCQwsQAAA+BSiXX365TJ06VV577TUZNGiQPPPMMzJ+/Hi58847vV4UAAAoUJ7fB0X50pe+ZD4K6Xdy0qndoHsKAADp4bd4fLxlPmN2AABIDwEKAADQDgGKDcPjHxGkRgUAAGcIUHzqswIAANJHgOIQQ4ABAMgeAhQfO8kCAID0EKD4iN/eAQAgPQQoGqETLQAAjQhQHCJ4AAAgewhQMsToHgAAvEeA4qMQ0QsAAGkhQMlwaLGr4ccppmUoMwAAjQhQfMQoHgAA0kOAohFahAAAaESAkiGCCgAAvEeAAgAAtEOAohE6yQIA0IgAxUfc3A0AgPQQoDjEiBwAALKHACVDbn7LmBoVAACcCWyAksu7vE5ZvFsWbj+cs+UDAKC7ZrlOgNac3EnW5SyX7jwij7+xxvx/57jh6aULAIACF9galGzUuFh9Y/eRak/SAwBAISNA8bGTLH1OAABIDwFKhnLXkwUAgMJFgJJldi1FBnUuAACYCFAAAIB2CFCyiJu9AQDgDAGKQ3R4BQAgewhQ/OxTQlQDAEBaCFAks06rBCEAAHgvsAFKKEfDiUMMTAYAIKXABihu0VoDAED2EKBkKIe/OQgAQMEKbICSjRoRghcAANIT2AAlG+I70KYKiuhwCwBAwAMUWmYAANBXYAMUt7yq3aDZBwCA1AhQMsSwYQAAvEeAkmGtiZtfIE7VrMRQZgAAGhGgZBEBCAAAzgQ2QHHbFySdviNuAxI67gIAEPAAxS2GAAMAkD0EKBmikywAAN4jQNGoFoY+KgAAZClAGTdunIRCIXnooYckaOhTAgCAhgHKkiVL5Pnnn5eLLrrIz8UAAIAC41uAUllZKXfeeae8+OKL0qlTJ8l/7htgaLIBAECzAGXUqFEyfPhwGTp0qO10tbW1Ul5eHvPQhR8BhmruSr5AZ0tcvOOIvLZ4t6NpD1bUyqTZ28xn+G/9vnL509ztcrK+wXa6PUer5fnZ26S8po7NAgAWmokPpkyZIsuXLzebeFIZO3asjBkzxo9kFKyvP7/AfD67axu58uwuttPe89elsmL3MXl/XYlMvf+aLKUwuG5+bq753LxpExl5db+k042YME8OVZ6QDfvLZfztl2QxhQAQ0BqU4uJiefDBB+WVV16Rli1bppx+9OjRUlZWFnmo7we2y6vLu8HtOlKdchoVnEQ/IzvW7Suz/VwFJ8q8bYezlCIACHgNyrJly6S0tFQuvfTSyHv19fUyZ84c+cMf/mA26TRt2jTyWVFRkfnQn4Y9SjRMEtzd2I8bAAJAlgKUG264QdasWRPz3l133SXnnXeePPbYYzHBSS6lc+v6TOfj5ocFAQAIMs8DlHbt2smgQYNi3mvTpo106dIl4f2C5/bymMtpAABM3Ek2y7h5GwAAORrFE+/jjz8W3VBZAQCAvqhByeOAhj4t+nJeXDQsWACggcAGKJ51ks3GQgAACJjABihOGA6qTbj+BQDAewQoDqVVGaJjuxAAAHmAACWLVLxCqw8AAKkRoORxZYiOaUIj7iQLAJkJbIAS8uiOJF52gyXeAAAg4AEKAADQFwFKFtH/BAAAZwhQfBTfZEOfEaQqIwCARgQoaQYbue77onBy0xd3+QWAzBCgZDkAsDtxUcMCAEAjAhQAAKAdAhSHQh58x0jRxEMnWgAAGhGg5HF/D5qE8r/AOPm9JwAIIgKUTNlUe3DqAQAgPQQoWRRK0YzDxTQAAAEPUHLR34MaFQAAnAlsgAIAAPRFgOKQjs0v3AxMX06Li4bFCgC0ENgAxUnAke2gJNsjOlYWH5OX5+90tNy5Ww7KP5ftcTzv5buPyl8WWM97/b5y+dPc7XKyvsF2HrUn683pthyoSLm8mrp6eXHOdtlaWinpKK2okUmzt8mhytqU085YWyLT1+xPazmAlxbvOCKvLNpFpqIgNct1AgpZwrnZSO9+Kn4ZMWGe+XxGuyK5eXBP22m/9X+LzeeL+3SQAd3apZz3f/5xvvnco31LufHCHjGf3fzcXPO5RbMm8u2r+iWdx8SPt8n4f2+Rn727QXaOG267vN9/uEUmfLRNfv5e6mmt/PfLS2X1njKZteGA/OPeq5NOV33ipNz7t2Xm/6ufvlHat2zuelmAV77+/ALz+eyubeWqc7qQsSgoga1B0fGmaKEcJcpNrcOB8tQ1DNG2HaxK+pmqSbGzYvcxx8tZtuuoZEIFJ8qSnfbzqa07XetTc6I+o2UCXtl9JPl+BuSrwAYoOM1Ny5LbVqhC/u0hL5Kf73kAPVCOUIgIUHzskJpQIRLK/4NSNjvm6lnL5Ww67hALAJkhQMmQq3NoinM7JzUAABoRoMDXWhG7Wh4vl2v3I4x+oVoduqClEIUosAFKKEcnMB2bLXTlJquyla+5CIQAIIgCG6AAWtyojWoYALBEgOKQF+cRr5tSqNYFABQqAhQbQbmVvJ/DjLM1r1wISvmA/vJ9XwKsEKDAFSMAN66zpWGSAKAQEaBkER0sAQBwhgDFxyrU+CaAxtch7ep1/awVsesE6uVyc1HZYjuE2uHKUTMPT8oiJQkFiAAl6yfG7JywAzfMOEttLzq2OgFAISJAgSteDoulYx8AIBkCFB9ZX9VzCQ4AQCoEKPC1KqOQa0k8WbUCzh9kTyHvZwiu4AYoLjsTeNEJzeuDiFHww4wlb3G+AIDMBDdAycJZxiqosTvpchUEAEAjApQs0zEI8XWYsWTp14xzMsxYw42JQKIkohAFN0DJwckl/iQaf4LL5yYNf5AhABBUwQ1QckDFI3kfhBjBvuwrhH5EAJAPghuguO0kq+GZRMc0oRHNPwCQmeAGKB7J5A6m8QFGrgIOP5dbyEFUIa8b8gyFEQXI8wBl7Nixcvnll0u7du2kW7duMmLECNm0aZMEkdUxI/9beLJ3VtayOYygBADyM0CZPXu2jBo1ShYuXCgzZ86Uuro6ufHGG6WqqkqCTp3bOL/F5ocdHeMTAEB2NPN6hjNmzIh5PXnyZLMmZdmyZfK5z33O68XlNSMAtSLZqnEJaVbd4nSt6auCbJY3IJ/43gelrKzMfO7cubPl57W1tVJeXh7zyIZQFnZ6q3NmyMPlBf3ktnD7YZmyeHfKPPrLgp2ybNdRCapVxcdk8rwd0tBQ+OXlYEWtTJq9zXz2wmuLd8ui7YfFSzsOVckLc7ZJ9YmToqMZa0tkxtr9oqNj1SfM7bu/7Ljn835vzX55f12J5/OFRjUo0RoaGuShhx6Sa665RgYNGpS0z8qYMWMkCPS6xk+PlzFRpgHW7S8sNJ8Hdm+XdJp/byiVJ99aZ/6/c9xwyac+OF65bcI887lz2yK5dUgvKWR3/2WprCw+Jh+sK5E37r8mo3mpwGT0G2s8Kzth1//mY/P5QHmtPPGlC0QnVbUn5d6/LTP/XzdmmLQp8vUU4dqPXl8lszaWyquLdsucR6/3bL5l1XVy/yvLzf83/eyLUtSsqWfzhqY1KKovytq1a2XKlClJpxk9erRZyxJ+FBcXS6GKP7Ul3Kgtq6kpHHuOVif9bGtpZVbTorPNJRVS6FRwoizf3ficiV1HkpcrLyzdeUR0U1NXH/n/eNT/upi9+aD5vNvjbVNRWxf5/2R9/l2EFCrfwuMHHnhApk2bJnPmzJHevXsnna6oqMh8BGYUj2Z9JQplmHGyXPUzu71YNw6F+tJvT/V/P9Px+BTNr+Tpvt5B5XmAomoFvv/978vUqVPl448/lv79+3u9iIKRjyenbHZ7cXrMyGaaHC8rHzcuskr3IhLULm4BXe1gBCiqWefVV1+Vt956y7wXSklJY6ejDh06SKtWrSRfZWNndd1JVgp9mHHmVzVcF0Xnd76XmOziqlo/jccE78sxx4mA9EGZOHGi2Zfkuuuuk549e0Yef//736UQuakZDPqoGz9RQwt4sB+RiSj0Jh44zSs9csrPZBgFXDOQbzUSupQ36DcirhDKt1c4h+mD3+LxUWHe6t7DeRn5V7PidZIJGvSV7/tqQdZE+tZJ1p/5IjMEKA5PHl5cTaRq03YbuXNy0zcfdLz61C9FwaZjGYmhefL8EtDV1hIBShbFByC6HKB8PcFnKXpIOszYx+tgHQMj5M9VtadNPBIMfm2S6OME+7U+AhugZKNKz+0y3I4ayEW1ZDbbZ/UcZhyUUwGCXu0fpJIe9G2tq8AGKIUg38+VRhYOGhx4Cqe8wH9+1jh6gf05WAhQcogTRuHes8LpttWlmQ8AdBPYAMVtcJBOMBH/HfXS7jzqupOs+yRl/SSZnWHGuZFvoQXBUCEPM/ZoRlHHp8BeQAV1vTUU2ADFK26v2/N9p/d2mHH+ZUb+pRi6NndoWZa0TJT/2yR6rgTy+ghsgKJZiwAyOBjlY6AD/QX9GBHUEzWHE30ENkDJhZCuB72C/jVjP4cZZ75yHAyDy8vAOh+ae73g2+4c3bTl0yLgHgEKXAn6CdVx51cd80nHNAEaiL0PCjuKLghQHF5NeFFk4+eR6X6Q7ztSytQ7vQ9K5rNIS77lfr6lFzm+e7aGBUbHCmj4hwDFR1b7t5ZNPAUQCOVjvgIozItReCOwAUquzmc6nuv9/TXjLKxwjvJUx22Z74EmdPo142BiN9FHYAMUHejeIc1afv2AiPe/ZhydaA86yWY8B+Trzf90PBFqmKTsbBOPfxgW3iBA8VHI4oCUj00RuTqQOs0qHQ8oOqYJ7uThruqpwNa4BXS1dUSA4lAh76x+rlv2si2U/U6yhVskENAgVvfjXDaCRr1zIFgIUDLkpkYkflrNjwWW8jHNnsrj9Q/8tnMpH2s7kZ6Yhts83scLDQFKtkfxBL7iODp/DE/am+0OKL7eqE3yS76lF9mn/YmaoDFQCFCySO3wOlbrpuJtt1AkzVwEipYBQEDF3P+FnVIbBCgi8uqi3bJ4xxHbQrt2X7nnmV8fd4SyO2BNX7Nf3l9XEvPeG8v3Jky3tbRCXpyzXWpP1jtOh1ruzkNV8sKcbVJVe/LUe4b8beEuWbozNl8mz9spa/aUJczjX8v2yNwtBxPnLSKvLy2WeVsPWS7770t2y4Jth83/1bN6HfbOqn2R/+sbkmdOsl+JVumcPH9n3Loa8tcFO2XZrqPma7V+aj2jFR+pjnm963CVPD97m/n+pNnbo+bV+LyppEL+NHe7nDjZEPOZeq3eV58nc6K+QeZvPWTmkXKyvkH+75Mdsm5fYx6rPFV5G620okYmnUqPSpdKX7zDlbXmNGraMDVvlZ4N+0+X5bLqOnO6fceOJ8zDzKuFu2TZrtgy0NBgyISPtkq/x9+V1xY3bq8lO4/IK4sa83HPUZVP26S8ps5ynRduPyxTTn0v3sz1B+Td1fvNcqjWTZXL6O0UXueKmjrLtMWLL1PRrLZbeP+pqauXQxW1Cd9R+5X6zuYDFeZD/R+/rx2tOmGu/4Hy03mvzN92SF5f0ridlS2llTH5/u/1B2Ta6n0pj0tqndW6R/cXiT52qDxTeVR9onFfjt4f/jxvh7n9wo7EpTV6Pi/N22F+J1z+K2tPysvzd8rK4mMx8919uHGbhI8dysGKxvJ3qLIxD1VZ+O+Xl8iv399o5q3KYzXvn76zXn48dY3MWLs/YTtFl6mwiprTy4gv3/HrEhZdZpwct56fvd1clx2HquQnb66R8f/ebLlu6jls28FK8/ip1i16f7v9hQXy2w82RcqzystwGVPb95Mthyz37XC+1dTVy+P/Wi3ff22FPDdri7lt1XqEj0dbDsQe79W2Vdt49Z7YbaSoY/A/Th1n8kWzXCdAB2oHSeWJN9fKtz5zVsbLim7ieWPZHvl/1/RP+R11ErnvleXm/xuf+WLk/fX7y82dqH/XNpH3hj47x3yuPlEvDw4d6Dhd//G/s6Wu3pA9R4/LT28bJJ9sPSQ/eXOt+dm2X9wcmW7xziNyyx8+kZ3jhkfeUzvJj/6xyvw/+n1l3b5ymfjxNsvPVuw+Ju+tKYl8dseLC83/z+3RXs5oVxQzrTqB33FFX3FDpTPerA2l8sRb6yLL/OqkBQnT3PzcXFnz9LDI6xv/d47UnmyQsdM3xkwXvtIaNn6OZRClDvDjzO9sSFj3aN/80yLz+cJe7WX5rqPyzLT1kfR96/8Wm/8P6dNBBnRrZ/7/3clLZc3eslPzFvnNB5tky89PbyPlvr8tN7dV9AlPndTCSQyn59F/rZL31x2Qvy7YJfMe/0LMPGZvPmiW++jplXdW75Nfv7/J/H/0G2vM7fK1U/nYv0sb+cGUFXKo8oSs31cuz91xScL63v5C43Ye2L2tfPqszpH36+ob5O6/LDX/v2VILzNADa9b/HZ6ce52cxnxaYsXXaYu7tMx5rPwdlPl/r7rzonZf9TJ+HeztiTM74XZ2+W3MzeLvLsh8p4qG6OuHxB5rdZ/7pZD5slv5sOfj7z/zRcbt3M0lW8q39XJ7L9Prftnzu5iBj/h41L8+n1lYmNe9O7UynKdhz47W042GLK/rEaevvXChP2hQ6vm8p+X9jb/f/BUWt9Yvkc++OHptCp/nrfTfLRo1sQM4p6fs90MAuLTpI4dKg92HamWX3x5sPme2o4qkPlgXYm8cf818tRb6+TfG0rNhwoal++OPYGqk7Xyqe7t5JK+nSJ5Ey5TVw/omrCeqvyrC7e3HrjWdl2GPzdXymtOytbSSvn114ZE3levw8ethaNviLyvLmrUhUM4TUppRW3CuqkLxqn3X2O+d8NvZ5vPh6tOyOibzo/MZ+H2I+ZDHaenrd4vz87cbOZVtOi8DO/bH24slde/d5V5ITAlKqj9/Ydb5MuXnCmvL90jf/hoayRgUwHKA18YKG+t2itj3jl9/Ih256njzODeHeS8Hu0lH1CDkkMb466sk3WXqKitizmIRyuNu1oIW1HcWEPglDpIK+ErNrVDOVWSJA2K1ZV5mDqAWlFX4EdOnXzCoq/6M6kqV1c6qURfpSnxB5RkVsfVLFldxdjZd6zGDOislJSdvlpTBzCrbRdNBSfK2r2n52dVCTVnc+MV3F6L7bT9oHUZUCfPZHYero4EDslqzcJ2x9VURQd4szYcSLpuSngZTqkylYzVdloRV0sQFl97YPWeOkmGa0hSCed7dG1q+fE62XU4eXpTbR8VnCiLLGpflOgavXBaNx9IntZwDVM4OIkX3j9UzVh8noQDEXXBExYfnEQrPnrcskwlsypqn0u2Lio4UeafqqkNi65piW/WiV6XZOumLrDiLdt51LIMqYDDybEkvG+Hj8PLTtX0hqn9Ibwe0cepcJrizylW9h9LfrzWDQFKDjk9sUZ39Ez4PZ8M5x0/j/D3Qi6GHtp1/E2nT5vV/WJSrY/T5XjZZzY+TfEHObcdolU+J0ufX+3idvmR7DO79XJzy/Bs9sGwW5bVZ8nKvFWeeLEeMT9W57A8xzTxWOR2snWwS25G5cyus7rTWVik2beyb5uQFK8dfK2JBwebUMhdGXRyzMmnPjaBDVD8vktk0gNE1GIbHB7ZYoOF+GUkWbajOVt9L1zSQ76e5OzTYJOuDGVrFJWZWpeLalzDUFZP5qE0PrPbpq4C42wGKLafuUmI1cp7cUfh2P4kfh6e/LrXid1cM1kfr5KbsN4hu4sN+9eZHredzyPk6D3DRT7nU+fswAYoORPTW9xZwYkpdCmu2k/PK71SaFWDktlJzv2RyaomwfYK2MXhw9calOTHP8fzS16Dkv1APdlnIce1cfapzuZx0i4t1jUo1t/3qwYlbo7OroRTLDfpxYt9tOZLHjs9Dlhui/STZDsf25rAhAEMzlIRPV0TD441Icc1KHaXN/HTSt4gQMlhTYzjJp6Y6t8UoX6GrCLxlIvw4Wov/uCRD/tUfI2Y+7KhTkxJPvHpqGIbXGZYhWIz8OrUpHpsVSc1dnaBu+H1MFeHbTypAvOkFy8i2tagWKbZo3KScAFhc4xLtwYlusxH7/9eXhiFLN5zVYMi+SOwAUo2Do6WJ6iYakWHTTwuqiKTTef84BiOxF008dj1QQn53wfFzbp62bSX8kZzeVCDYpfIpPGJzezcpNNpDWJu+qDEvXZw9RqWaRFz3gfF+n+79+zeDy87XbY3TMxgHt7VoMRtJxfpyLRspt3EEwo5es9VHxRNLgycCGyAkk9CeXYL/6Cyu0LTlb+/VeTuQKhz5710And3889+H7ls0nF9/EiTmyZOJ0IO3ytUgQ1QnBROJ8Urk0KYWI1oeHbVme7BPtNdyoudUqU9cfPY9CFwEQx4uXPb1Walkw2NV87ZrkKxkawPisNOsimT7PFVqv2i3HW8cFpTafVZyINOss6+k97nfgWCXszXTU2QF/MOi755nWUTn+NhPNbT+R2fGS6Wo+9lQKLABijZYHWyji4/Tkfx2I38Sd5J1mEi4+dh0dbuZohvqn4HTjQ0WPRBSZkGZ0eAbF7IedvEY2S/k2zS9+O3TfTJ1Xk6E08C/lFlKmk6LBacsJ+F9wsHnWTTuTKPDeyS90VK/h2rz1MfG7z8AVMvAgk36xEvVbbHH5tsm86z2MRj27k4ZPVm8nnQSRa+dZJ1cpJ1HNRkyM0Y/iZR3dUz7yga/l5aX0s9X/FP/KZJ5z4I2a6+bZLOfVCcntQyKKq6VmM72aZepL1Jli4dvbhXhy7r43Zdosu+V8fVZHOxS5rdRV0Tiy/arqeGTWmZoAYlhxzvEjFtB5l3hHO0KDd9UGyWG0qjM6FVJ0H7oZFGbjrJJizWZuUdN21l+T4otjUozoYZJyueKZsgEsqyf8G3uwYem+ZXq6tXj+/9Y9akeXDDLSe5mbgtDZ86yTodZmzR3OZw+e4b7ZNfWKVbgxJbO5X+Oiem0OHIO3Eifxp5CFByyGnUbthE28nmke4VQaZXEnbfd9r8Y3UfFK+ucPy9AVZm37fLHy+aztxyWoMSvW2i05kq4IhfJzfBjVt2abEsWy5OUAmBd5r3/rFNj+V30vvcr1pYT/qfWTa3ZTzbpPNOtoy074OSRsn1pFncONXE46Do5eJYkq7ABihaVIQlHKBTtxkn9kFxNGv7ZMScVCxqPlINp7Vpy439LP5AniQ9Fp+6vQLOSidZ2z4Uzm625fhW9z6dVNK5Gou/Mowuk7G3X7eX7F4jfnBbAZeszFvegyL5hXn6NShOOjvG5Lv957Hv+9QHxaf7oHjVB8WupivVcdVptqRTo20XMIb8uNU9AQqSF7iQ62g7erps9UFx1xSSvKrUvpNaVF64Gv6hJ8/vh5GFbe1FjZJnzYx+rq7LeSer4vdruGyuThrZ+umHkAbrYneB5FkfFBc1iFbfSRSyeEeLy+usCGwNSq6kuuqx/o71/41vJPtSGonLsA3a7VVKzPdi4hOXt7p389slvvZByVzMXYNzHLM5vupNt6w5rEH0gt28rT4xXH3fWc2grTRWPWUTj0d54VV6sjWPpPN2McrL61E8tkPzPRyeHXI0zDh/rgADG6DosIkcByg230l+O+v01tCyiSfFrJwGIXZimwncn7xych+UFK8zHWZst929k0YnWZs+KPGBpqv88/PkZBvgpm5WsNovks07vU6ysXno9j5N1k0jSb5n+LND2G1vxx1Grd5zWi5SNfHY1OCmun2D89puZ8t22ick5LSJx7Jh3H1adBPYACWfmnhyMszYRcmIHvZmNCQ/ySUMQc5yxy27Ph7ezD/2/3wfZpwsMfGBS7IymUlR1bUS28kPwHlRBR+9HD+b+rz4QTsnsjH61e26xOaxN2lIZ1vZHdObWAYoNhcVuu44aQpsgOIs0vT3rOm0GtGu46Fn7f9x33P3Wzw21d0xtStx34upLYhfx4QqFJs0O19ZL9tvE66y45eV1jDjZPP3pyza3lLB4XeSXcmnTLHDDt9eyLQ7jOHgd1Ay/f2p08uK7WCd7j7u5McC7W6655bdV51miZsOy5n3QfF+mHHM/B0PM7aZh1j1QUk+D6/ukK6LwAYoOnA+7Db6O4ajeaRb05JpUGa3Tk5/8t6qiceLmiNXfVVykXcN8TVsUZ/l4KiS7GCXcO+MhiTpTJFmu6GdXq+u21EUiSeo5DOwqxl0nL6Y+SX/zG65Tu+e69eFl5fDZb2er2I3m1TH1XSO1bHLtjv2eXNss5Pu3Z5zjQAly2L7diSvbUjG6fh8N0XQ6sTgpl+J3bR2zTjJrmDUzpzsCtYy/bapcz+deDQ/9zUo9kGbG8775Di9ynN2gnbVB8WmBsXrY6j9CcJqeuvXllevmSXN8gTiZP9LN7/8GmYsOe6DknIRroJUN0eg6KkMT+9xFHLZByVpujI4luQSAUqWpVM2YmtQJOtSLdOuhsf5SS52fn7sROaBX7Ipsz4omfS292JQU7KO0n7dRM9NcBP7vdTTuk5isip/J31Q0vktnvh5ZKnfWbb2h+wMM7aXGHIYvh5XndZUeHEflFSf5VFMEoMAJYfsrphjp7O+QrWaR6p5pUyT1dVkipkZtkdam7b0JP0tDJc38TKbbhze6NruxnFu2bVTpxeImiuSZH7ZP8QkG1GU0G/BYVl1c8JIt0bA6bJSfT/hLRdVeGk18diUnaTrl2q/9KHzsv3y/JmJV2U/2cgsy18zttm37ZeR7IM0vuNh38HY42v+hCsEKFmWzpWRXQ1F8qDGOasTTMwQPJtfgm1Mg82VSMxnzmpQ1HecBmJueNHxLW4Oca8MT5t4Mkmr06t4p0m033bWgUWqJNvVqrtZXUf7kV3NnoMhuqeHcVp0knWQ2tRBfnQexneWTvadFMt0sCxPf5vKkzvJWrznsDCkWhcjg34/TstjsunSrVkOObxRm5uyQBOPiEyYMEH69esnLVu2lCuvvFIWL14sOvFqv8z2sC631b3ppi/dX/p0dSfZqP+z1XHL7t4Hni4nzSGcXv26rNNl2x3UmyTJK2/7LWQum82ejoYZhzJfn6yV01Dh/GpyJovIZcdRt31QmoRyP2w8r2tQ/v73v8vDDz8sTz31lCxfvlyGDBkiw4YNk9LSUj8Wl7cc9wyP/t9p3XOaO5xVVaGr6Nx2uuQ1DPFX3m5GUZifOOlgbA7fdJZWL5p4XA9pjm3hyajJyOmynbZnx/ZBiR+aav19V02DGWwPRzUYrpt4rGsq7X4HRVwMRbZLYFxLX9rNuMm3i82ILMdNGYYvJ/lMZpGyD4rNMcWzHwuMCeSddgy2qUEJOeuEEl5u8t/ysv4/kAHKs88+K3fffbfcddddcsEFF8ikSZOkdevW8tJLL/mxuLyVTqGP/0ryYcbppcnqe6mu4OzacuM7vyZTH32waEgcx+NlO+3ptHm7p3r9S9Dx1f65ZLf4mF8zjtrgqTtXJ9/GbtbXSYAUXy5TfT/h1ucZbnc3QX7ikFcjvWHGSb8nGbPMM7+GGXtURWb3g4B+DzP24lfe7aTc12I6BOdPhNLM6xmeOHFCli1bJqNHj46816RJExk6dKgsWLAgYfra2lrzEVZeXi5+OFRZKxM+2hp5vWTnUdvpx7yzTiprTia8F/96/tbDST/fWFKR8N7fFu6K/D93y6GYz6eu2Csl5TUJaSk7Xhf5/4W522M+e23xblmy80jCd9bsLTPnHV0W49MSNn1tSUw+qem2llZG3vvN+5sSvhM9r9KK09vvd7O2SLuWp4vV2n1lkf9/+8EmaVN0+rOaugbLZfxr+V5ZUXwsZnn/3nAgafrfWL5Hth08nd5k0/3ivQ3mNgn7+bsbLKezm0e0l+btkHfX7I+8Xrj99Hb4aFOpdG1b5Gp+/1i2x8z/sLHvbYz8P2VxsayMyxO79J6ot+84FJ5+z9HjSeexKTqv3lsvzZs2Xs8sjdt3/nfm5sj/b63aZ5uuaG8s3yt7j51efnVtfeT/unrDcd6p7disaeKl45h31seUqV1Hqi2/v3jnkYRlrN8fexz69fubpGXzJjJz/YGE7y/ffSzm+9H7a/h9u3OCmiZ63SfP2xmz/cZN3yhFzRKvJaetPl323lyxN6bshPdLq7z7YH2JjHmncT8sjzrGqWkr4o55yfx02vqEq3W13lbLU+9F73d2VJnYHbedVJk6Un0i6XfCy4xfl3i1JxuSHrf+GnVcDq+L03WLtv1QVeS9aav3OQogxs/cLG2jjpnR8561IbG8rbI4Dqhjg5p+UdQxKDpt9VEJ+MfSPWb5VsenUdcPEJ2FDI8vzfbt2ydnnnmmzJ8/X6666qrI+48++qjMnj1bFi1aFDP9008/LWPGjEmYT1lZmbRv396zdG0/WClf+O1sz+YHAEC+OvuMNvLhj67zdJ6qgqFDhw6enb89r0FxS9W0qP4q0SvYp08fz5fTsXULGXX9OZHXKix7b81+ueqcLrL5QKV0btNC+nZuLe+vK5FhF/Ywr5aUDfsr5MONpXLrkF7Sp3MrOXGywaxx+I8LukvrFk3NaT7edFDOPqOt9O3cynx9rLrOrB350kU9zauM6hP15pXXzYN7SvOmIXln1X7zKiGcnt1HjpsB1HXnnpE0/Wv3lktdfYNc0rejOf3M9SVyfs/2cvU5XWKmO1pdJ/O2HpLhgxuXra5Ep6/dLzec113aFDWmN2x/WY2s3Vtmrou6clJX/SqNzU71tFqw7bCc0a5IBnRrK9sPVsm+sho5Wd8Qs65hy3YdlZbNm8qFvRoL5f5jNWaUfsP53czaqrZFzeT8nu3Mzw5VnDBrfW4a3EMW7zgiHVo1l3N7tJNdh6vNx+c+1TVyVTBv62HzuyOvPishT9S0Ow9Xyec/1ZhvM9aWyKV9O0m39o01FwfKa815qFqbXh1amjuk8snWw5HXqgZBbf/PDuxqlge1fW84v7t0btM8shxVk/bhplIZdkEPmbGuRHp1aGXm7WX9OpmfH6k6YeaVyrvDlafXTfn3+lIzT3p2bBmT9qraenl5wU4Z2K2tDOzWToqPVptpUD7ceFA+1b2t9O7Uysx3tZ2uGXB6O4e36dDzu5tl78r+naVL2xYx8z9Zb8h7p7a72rZr9h4zt/OsDaVyXo92cmanxu2nLqzeXb3fzHO1HeLN33ZYurdrKed0a8y7sDmbD5m1dEP6dJRrB3SR4iPHzVq36887wyzvqsbrpkGN5T2eKr87DlVGtlu0jfsrzPSqvFX7WXjd9h49LpsOVJqvZ208IDcP6imLdhyRHu1j06byRm1HlTeqvMeXqWhHqupkwbZD5nYL1wZE77tqf3tx7g5zu1zUu0Pke2pfHnxmR2nRrInM33Z6X4vkfUNjGr5wbreYK+Odh6tl9+FqubhPR/OYonzhvG7SvlWzSI1V+fGTcnn/TpEauS5tWsjA7m1j0q3yQtVIqH0rOt/Dwvvy8MG95FSlV8z+MOzC7rZpXbevXGrq6qWy9qT079pWOrdubpZ/lU+qnPfp1Fr6dW2dsH9EHzvit4M63k6avU16dmglIy7pFdlXP9l6SMqP18nVA7rK/rLjMWXCat3Ue2+v2id3XNFX5m45GJm/Xb6rfS1cZuJr2qKPW+oYe7T6hPlQ63L8RL1ZS9WqeVP50pDYdYs/pqoaFrVPDL+oZ0xH1QkfbZMzO7aS2y7uFTnfqA7Dqoz17NDSPIdccOqYGZ1v0eeX15fukYqaOrOsf+bsLua5StXcXn1OV7PcRR/vldmbD0q/Lm3krC6nt5Gy41CVWXauPXWc6dQ69pgRiBoU1cSj+pv885//lBEjRkTeHzlypBw7dkzeeuutrEZgAADAf16fvz3vJNuiRQv59Kc/LbNmzYq819DQYL6ObvIBAADIahOParJRNSaXXXaZXHHFFTJ+/HipqqoyR/UAAADkJED5xje+IQcPHpQnn3xSSkpK5OKLL5YZM2ZI9+6n2z4BAACy1gclU/RBAQAg/2jfBwUAACBTBCgAAEA7BCgAAEA7BCgAAEA7BCgAAEA7BCgAAEA7BCgAAEA7BCgAAEA7BCgAACAYt7rPRPjGtuqOdAAAID+Ez9te3aBeuwCloqLCfO7Tp0+ukwIAANI4j6tb3hfcb/E0NDTIvn37pF27dhIKhTyP7lTgU1xc7MnvBIA81xHlnDwPAsq5fnmuwgkVnPTq1UuaNGlSeDUoaqV69+7t6zJUxhKgZBd5nn3kOXkeBJRzvfLci5qTMDrJAgAA7RCgAAAA7QQqQCkqKpKnnnrKfAZ5Xqgo5+R5EFDOCz/PteskCwAAEKgaFAAAkB8IUAAAgHYIUAAAgHYIUAAAgHYCE6BMmDBB+vXrJy1btpQrr7xSFi9enOsk5Y05c+bILbfcYt4dUN3d980334z5XPWzfvLJJ6Vnz57SqlUrGTp0qGzZsiVmmiNHjsidd95p3tynY8eO8t3vflcqKytjplm9erV89rOfNbeRulvhr371KwmisWPHyuWXX27eTblbt24yYsQI2bRpU8w0NTU1MmrUKOnSpYu0bdtWvvKVr8iBAwdiptm9e7cMHz5cWrdubc7nkUcekZMnT8ZM8/HHH8ull15q9sofMGCATJ48WYJq4sSJctFFF0VuQnXVVVfJ9OnTI5+T5/4aN26ceXx56KGHyHMfPf3002Y+Rz/OO+88PfPcCIApU6YYLVq0MF566SVj3bp1xt1332107NjROHDgQK6Tlhfee+8943/+53+MN954Q434MqZOnRrz+bhx44wOHToYb775prFq1Srj1ltvNfr3728cP348Ms0Xv/hFY8iQIcbChQuNuXPnGgMGDDDuuOOOyOdlZWVG9+7djTvvvNNYu3at8dprrxmtWrUynn/+eSNohg0bZvz5z38282HlypXGzTffbPTt29eorKyMTHPvvfcaffr0MWbNmmUsXbrU+MxnPmNcffXVkc9PnjxpDBo0yBg6dKixYsUKcxt27drVGD16dGSa7du3G61btzYefvhhY/369cbvf/97o2nTpsaMGTOMIHr77beNd99919i8ebOxadMm48c//rHRvHlzczso5Ll/Fi9ebPTr18+46KKLjAcffDDyPnnuvaeeesq48MILjf3790ceBw8e1DLPAxGgXHHFFcaoUaMir+vr641evXoZY8eOzWm68lF8gNLQ0GD06NHD+PWvfx1579ixY0ZRUZEZZCiqgKrvLVmyJDLN9OnTjVAoZOzdu9d8/cc//tHo1KmTUVtbG5nmscceM84991wj6EpLS838mz17diR/1YnzH//4R2SaDRs2mNMsWLDAfK0OGk2aNDFKSkoi00ycONFo3759JI8fffRR80AV7Rvf+IYZIKGRKpN/+tOfyHMfVVRUGAMHDjRmzpxpfP7zn48EKJRz/wIUdbFoRbc8L/gmnhMnTsiyZcvMZofo3/tRrxcsWJDTtBWCHTt2SElJSUz+qt9iUM1o4fxVz6pZ57LLLotMo6ZX22HRokWRaT73uc9JixYtItMMGzbMbNo4evSoBFlZWZn53LlzZ/NZlee6urqYPFdVtH379o3J88GDB0v37t1j8lP92Ne6desi00TPIzwN+4VIfX29TJkyRaqqqsymHvLcP6o5QTUXxJdF8tw/qgleNdmfffbZZtO7arLRMc8LPkA5dOiQebCJzkxFvVYnVmQmnId2+aueVTtltGbNmpkn3OhprOYRvYwgUr/urdrkr7nmGhk0aFAkP1Qgp4I+uzxPlZ/JplEHmuPHj0sQrVmzxmx3V+3m9957r0ydOlUuuOAC8twnKghcvny52e8qHuXcH+riUfUHmTFjhtnvSl1kqr5/6leIdctz7X7NGEDs1eXatWvlk08+IVuy4Nxzz5WVK1eatVb//Oc/ZeTIkTJ79mzy3gfFxcXy4IMPysyZM82O8ciOm266KfK/6hSuApazzjpLXn/9dXOQg04Kvgala9eu0rRp04ReyOp1jx49cpauQhHOQ7v8Vc+lpaUxn6se32pkT/Q0VvOIXkbQPPDAAzJt2jT56KOPpHfv3pH3VX6opstjx47Z5nmq/Ew2jRrBotuBKlvU1aMacfDpT3/avKofMmSI/O53vyPPfaCaE9RxQY30UDWq6qGCweeee878X11xU879p2pLPvWpT8nWrVu1K+dNgnDAUQebWbNmxVSbq9eqbRmZ6d+/v1kYo/NXVeOpviXh/FXPqsCrA1LYhx9+aG4HFb2Hp1HDmVX7Z5i6slJXtJ06dQrUZlJ9kVVwopoXVD6pPI6mynPz5s1j8lz11VHtyNF5rporogNDlZ/qAKGaLMLTRM8jPA37xWmqjNbW1pLnPrjhhhvMMqpqrMIP1U9N9YkI/08595+63cO2bdvM20Rod2wxAjLMWI0qmTx5sjmi5J577jGHGUf3QoZ9L3s1nEw9VJF59tlnzf937doVGWas8vOtt94yVq9ebdx2222Ww4wvueQSY9GiRcYnn3xi9tqPHmaseo+rYcbf+ta3zGGdapupYWpBHGZ83333mcO2P/7445ihgNXV1TFDAdXQ4w8//NAcCnjVVVeZj/ihgDfeeKM5VFkN7zvjjDMshwI+8sgjZk/9CRMmBHqY8eOPP26OlNqxY4dZjtVrNdLsgw8+MD8nz/0XPYqHPPfHj370I/PYosr5vHnzzOHCapiwGi2oWzkPRICiqHHYKtPV/VDUsGN1Pw4489FHH5mBSfxj5MiRkaHGTzzxhBlgqEDwhhtuMO8jEe3w4cNmQNK2bVtzONpdd91lBj7R1D1Urr32WnMeZ555phn4BJFVXquHujdKmAr+7r//fnMYrDoQfPnLXzaDmGg7d+40brrpJvN+MuoApA5MdXV1Cdv24osvNveLs88+O2YZQfOd73zHOOuss8y8UAdcVY7DwYlCnmc/QCHPvaeG+/bs2dMs5+o4q15v3bpVyzwPqT+ZVRABAAB4q+D7oAAAgPxDgAIAALRDgAIAALRDgAIAALRDgAIAALRDgAIAALRDgAIAALRDgAIAALRDgAIAALRDgAIAALRDgAIAALRDgAIAAEQ3/x+DCCICMmBDCgAAAABJRU5ErkJggg==",
+      "text/plain": [
+       "<Figure size 640x480 with 1 Axes>"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "source": [
+    "import matplotlib.pyplot as plt\n",
+    "\n",
+    "plt.plot(data[\"message_dt\"].diff().dt.days.values);"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 25,
+   "id": "eaf90115",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAioAAAGdCAYAAAA8F1jjAAAAOnRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjEwLjgsIGh0dHBzOi8vbWF0cGxvdGxpYi5vcmcvwVt1zgAAAAlwSFlzAAAPYQAAD2EBqD+naQAAJmtJREFUeJzt3QtUVWXex/E/BIKhQFCAFITTssQyLS9IuUqTCS/jJeliY+U0jHbxktpospZamYWWU6ahVGOajWQ5k2Y6Q2OYOiV5wexihlqYjIY0GaA0IMZ+1/O87zkvB0EBD/Kcfb6ftfaCs/c++zwPHuF3/vt59vaxLMsSAAAAA/m2dAMAAADqQ1ABAADGIqgAAABjEVQAAICxCCoAAMBYBBUAAGAsggoAADAWQQUAABjLTzxQdXW1HDlyRNq2bSs+Pj4t3RwAANAA6hqzx48fl+joaPH19bVvUFEhJSYmpqWbAQAAmqCwsFAuu+wy+wYVVUlxdDQ4OLilmwMAABqgrKxMFxocf8dtG1Qcp3tUSCGoAADgWRozbIPBtAAAwFgEFQAAYCyCCgAAsE9Q2bJliwwePFhPLVLnmNasWXPaPnv37pUhQ4ZISEiIBAUFSY8ePeTQoUPO7RUVFTJ27FgJDw+XNm3aSEpKihw9evTcewMAALw7qJSXl0uXLl0kIyOjzu3ffPON9O7dWzp27CibNm2Szz//XGbMmCGBgYHOfSZNmiTvvfeerFq1SjZv3qynGw8fPvzcegIAAGzHx1JXX2nqk318ZPXq1TJs2DDnuhEjRoi/v7+88cYbdT6ntLRULrnkEsnKypLbb79dr/v6668lPj5ecnNzpVevXg2a3qSqNepYzPoBAMAzNOXvt6+7rxi7fv16ufLKKyU5OVkiIiIkISHB5fRQXl6eVFVVSVJSknOdqr7ExsbqoAIAANAsQaW4uFhOnDghc+bMkf79+8s///lPue222/RpHXWKRykqKpJWrVpJaGioy3MjIyP1trpUVlbqFFZzAQAA9ufn7oqKMnToUD0ORenatats3bpVMjMz5eabb27ScdPT0+XJJ590Z1MBAIC3VVQuvvhi8fPzk06dOrmsV+NPHLN+oqKi5OTJk1JSUuKyj5r1o7bVJS0tTZ/Pcizq0vkAAMD+3BpU1CkdNRU5Pz/fZf2+ffvk8ssv199369ZND7bNyclxblf7qyCTmJhY53EDAgKcl8vnsvkAAHiPRp/6UWNQDhw44HxcUFAgu3fvlrCwMD0gdsqUKXLXXXfJTTfdJH379pXs7Gw9FVlNVVbUaN/U1FSZPHmyfo4KHuPHj9chpSEzfgAAgPdo9PRkFThUAKlt1KhRsmzZMv39a6+9pseV/Pvf/5arrrpKjy9R41ZqXvDt0UcflTfffFMPlFUzhBYtWlTvqZ/amJ4MAIDnacrf73O6jkpLIagAAOB5mvL3262zfgAA5oqbtt7l8cE5g1qsLUBDcVNCAABgLIIKAAAwFkEFAAAYi6ACAACMRVABAADGIqgAAABjEVQAAICxCCoAAMBYBBUAAGAsggoAADAWQQUAABiLoAIAAIxFUAEAAMYiqAAAAGMRVAAAgLEIKgAAwFgEFQAAYCyCCgAAMBZBBQAAGIugAgAAjEVQAQAAxiKoAAAAYxFUAACAsQgqAADAWAQVAABgLIIKAAAwFkEFAAAYi6ACAACMRVABAADGIqgAAABjEVQAAICxCCoAAMBYBBUAAGCfoLJlyxYZPHiwREdHi4+Pj6xZs6befR988EG9z/z5813WHzt2TEaOHCnBwcESGhoqqampcuLEiab1AAC8WNy09S4LIN4eVMrLy6VLly6SkZFxxv1Wr14tn3zyiQ40tamQsmfPHtmwYYOsW7dOh58xY8Y0tikAAMDm/Br7hAEDBujlTA4fPizjx4+X999/XwYNGuSybe/evZKdnS07duyQ7t2763ULFy6UgQMHyrx58+oMNgAAwDu5fYxKdXW13HvvvTJlyhS5+uqrT9uem5urT/c4QoqSlJQkvr6+sm3btjqPWVlZKWVlZS4LAACwP7cHlblz54qfn59MmDChzu1FRUUSERHhsk7tHxYWprfVJT09XUJCQpxLTEyMu5sNAADsHlTy8vLkxRdflGXLlulBtO6SlpYmpaWlzqWwsNBtxwYAAF4SVP71r39JcXGxxMbG6iqJWr777jt59NFHJS4uTu8TFRWl96np1KlTeiaQ2laXgIAAPUOo5gIAAOyv0YNpz0SNTVHjTWpKTk7W6++//379ODExUUpKSnT1pVu3bnrdxo0b9diWhIQEdzYHAAB4W1BR1zs5cOCA83FBQYHs3r1bjzFRlZTw8HCX/f39/XWl5KqrrtKP4+PjpX///jJ69GjJzMyUqqoqGTdunIwYMYIZPwAA4NxO/ezcuVOuu+46vSiTJ0/W38+cObPBx1ixYoV07NhR+vXrp6cl9+7dW1555ZXGNgUAANhcoysqffr0EcuyGrz/wYMHT1unqi9ZWVmNfWkAAOBluNcPAAAwFkEFAAAYi6ACAACMRVABAADGIqgAAABjEVQAAICxCCoAAMBYBBUAAGAsggoAAPCOmxICAID6xU1b7/z+4JxB/KgagIoKAAAwFkEFAAAYi6ACAACMRVABAADGYjAtAKDJA0IVBoWiOVFRAQAAxiKoAAAAYxFUAACAsRijArQQLvwEAGdHRQUAABiLoAIAAIxFUAEAAMYiqAAAAGMxmBYAcF5woTg0BRUVAABgLIIKAAAwFkEFAAAYi6ACAACMRVABAADGIqgAAABjEVQAAICxCCoAAMBYBBUAAGAsggoAALBPUNmyZYsMHjxYoqOjxcfHR9asWePcVlVVJY899ph07txZgoKC9D733XefHDlyxOUYx44dk5EjR0pwcLCEhoZKamqqnDhxwj09AgAA3htUysvLpUuXLpKRkXHatp9//ll27dolM2bM0F/feecdyc/PlyFDhrjsp0LKnj17ZMOGDbJu3TodfsaMGXNuPQEAALbT6JsSDhgwQC91CQkJ0eGjppdeekl69uwphw4dktjYWNm7d69kZ2fLjh07pHv37nqfhQsXysCBA2XevHm6CgMAAHBexqiUlpbqU0TqFI+Sm5urv3eEFCUpKUl8fX1l27ZtdR6jsrJSysrKXBYAAGB/zRpUKioq9JiVu+++W49HUYqKiiQiIsJlPz8/PwkLC9Pb6pKenq6rNY4lJiamOZsNAADsHlTUwNo777xTLMuSxYsXn9Ox0tLSdGXGsRQWFrqtnQAAwEZjVBoTUr777jvZuHGjs5qiREVFSXFxscv+p06d0jOB1La6BAQE6AUAgNripq13fn9wziB+QDbj21whZf/+/fLBBx9IeHi4y/bExEQpKSmRvLw85zoVZqqrqyUhIcHdzQEAAN5UUVHXOzlw4IDzcUFBgezevVuPMWnXrp3cfvvtemqymnb8yy+/OMedqO2tWrWS+Ph46d+/v4wePVoyMzN1sBk3bpyMGDGCGT8AAODcgsrOnTulb9++zseTJ0/WX0eNGiVPPPGErF27Vj/u2rWry/M+/PBD6dOnj/5+xYoVOpz069dPz/ZJSUmRBQsWNLYpAADA5hodVFTYUANk63OmbQ6qupKVldXYlwYAAF6Ge/0AAABjEVQAAICxCCoAAMBYBBUAAOBdF3wDAMCTLhSncLE4M1FRAQAAxiKoAAAAYxFUAACAsQgqAADAWAQVAABgLIIKAAAwFtOTAZyGaZsATEFFBQAAGIugAgAAjEVQAQAAxiKoAAAAYzGYFgAAw8V58X2JqKgAAABjUVEBABjHmysIcEVFBQAAGIugAgAAjEVQAQAAxiKoAAAAYxFUAACAsQgqAADAWAQVAABgLIIKAAAwFhd8AwDYBheKsx8qKgAAwFgEFQAAYCyCCgAAMBZBBQAAGIugAgAAjEVQAQAA9gkqW7ZskcGDB0t0dLT4+PjImjVrXLZbliUzZ86Udu3aSevWrSUpKUn279/vss+xY8dk5MiREhwcLKGhoZKamionTpw4994AAADvDirl5eXSpUsXycjIqHP7s88+KwsWLJDMzEzZtm2bBAUFSXJyslRUVDj3USFlz549smHDBlm3bp0OP2PGjDm3ngAAANtp9AXfBgwYoJe6qGrK/PnzZfr06TJ06FC9bvny5RIZGakrLyNGjJC9e/dKdna27NixQ7p37673WbhwoQwcOFDmzZunKzUAAABuH6NSUFAgRUVF+nSPQ0hIiCQkJEhubq5+rL6q0z2OkKKo/X19fXUFpi6VlZVSVlbmsgAAAPtza1BRIUVRFZSa1GPHNvU1IiLCZbufn5+EhYU596ktPT1dBx7HEhMT485mAwAAQ3nErJ+0tDQpLS11LoWFhS3dJAAA4GlBJSoqSn89evSoy3r12LFNfS0uLnbZfurUKT0TyLFPbQEBAXqGUM0FAADYn1uDSvv27XXYyMnJca5T40nU2JPExET9WH0tKSmRvLw85z4bN26U6upqPZYFAACgybN+1PVODhw44DKAdvfu3XqMSWxsrEycOFFmz54tHTp00MFlxowZeibPsGHD9P7x8fHSv39/GT16tJ7CXFVVJePGjdMzgpjxAwAAzimo7Ny5U/r27et8PHnyZP111KhRsmzZMpk6daq+1oq6LoqqnPTu3VtPRw4MDHQ+Z8WKFTqc9OvXT8/2SUlJ0ddeAQAALSNu2nqXxwfnDPLMoNKnTx99vZT6qKvVzpo1Sy/1UdWXrKysxr40AADwMh4x6wcAAHgnggoAADAWQQUAABiLoAIAAIxFUAEAAMYiqAAAAGMRVAAAgLEIKgAAwFgEFQAAYCyCCgAAMBZBBQAAGIugAgAAjEVQAQAAxiKoAAAAYxFUAACAsQgqAADAWAQVAABgLIIKAAAwFkEFAAAYi6ACAACMRVABAADGIqgAAABj+bV0AwAA5ombtt75/cE5g1q0LfBuVFQAAICxCCoAAMBYBBUAAGAsggoAADAWg2kBiLcPFlUYMAqYiYoKAAAwFkEFAAAYi6ACAACMRVABAADGIqgAAABjMesH8BLMcgHgidxeUfnll19kxowZ0r59e2ndurVcccUV8tRTT4llWc591PczZ86Udu3a6X2SkpJk//797m4KAADwcG4PKnPnzpXFixfLSy+9JHv37tWPn332WVm4cKFzH/V4wYIFkpmZKdu2bZOgoCBJTk6WiooKdzcHAAB4MLef+tm6dasMHTpUBg3637ttxsXFyZtvvinbt293VlPmz58v06dP1/spy5cvl8jISFmzZo2MGDHC3U0CAONxag44TxWVG264QXJycmTfvn368WeffSYfffSRDBgwQD8uKCiQoqIifbrHISQkRBISEiQ3N7fOY1ZWVkpZWZnLAgAA7M/tFZVp06bpINGxY0e54IIL9JiVp59+WkaOHKm3q5CiqApKTeqxY1tt6enp8uSTT7q7qQCA81wpAlq8ovL222/LihUrJCsrS3bt2iWvv/66zJs3T39tqrS0NCktLXUuhYWFbm0zAADwkorKlClTdFXFMdakc+fO8t133+mqyKhRoyQqKkqvP3r0qJ7146Aed+3atc5jBgQE6AUAQJUC3sXtFZWff/5ZfH1dD6tOAVVXV+vv1bRlFVbUOBYHdapIzf5JTEx0d3MAAIAHc3tFZfDgwXpMSmxsrFx99dXy6aefyvPPPy+///3v9XYfHx+ZOHGizJ49Wzp06KCDi7ruSnR0tAwbNszdzQEAAB7M7UFFXS9FBY+HH35YiouLdQB54IEH9AXeHKZOnSrl5eUyZswYKSkpkd69e0t2drYEBga6uzkAAMCDuT2otG3bVl8nRS31UVWVWbNm6QUAAKA+3OsHMBwXAgPQ1N8ZB+cMavC+puLuyQAAwFhUVAAY8ckOAOpCRQUAABiLigoAtABPGBsAmICKCgAAMBYVFQBGYDwLPw+gLlRUAACAsQgqAADAWAQVAABgLIIKAAAwFoNpARvhcvstj0HB9sf/s/OLigoAADAWQQUAABiLoAIAAIzFGBUAsDEu1Q9PR0UFAAAYi6ACAACMRVABAADGIqgAAABjEVQAAICxCCoAAMBYBBUAAGAsggoAADAWF3wD4FG4IRy8ARfq+39UVAAAgLEIKgAAwFgEFQAAYCyCCgAAMBZBBQAAGIugAgAAjEVQAQAAxiKoAAAAY3HBNwAAFxiDd1VUDh8+LPfcc4+Eh4dL69atpXPnzrJz507ndsuyZObMmdKuXTu9PSkpSfbv398cTQEAAB7M7UHlp59+khtvvFH8/f3lH//4h3z11Vfypz/9SS666CLnPs8++6wsWLBAMjMzZdu2bRIUFCTJyclSUVHh7uYAAAAP5vZTP3PnzpWYmBhZunSpc1379u1dqinz58+X6dOny9ChQ/W65cuXS2RkpKxZs0ZGjBjh7iYB8NJ7pBycM6hF24KG4942OG8VlbVr10r37t3ljjvukIiICLnuuuvk1VdfdW4vKCiQoqIifbrHISQkRBISEiQ3N7fOY1ZWVkpZWZnLAgAA7M/tQeXbb7+VxYsXS4cOHeT999+Xhx56SCZMmCCvv/663q5CiqIqKDWpx45ttaWnp+sw41hUxQYAANif24NKdXW1XH/99fLMM8/oasqYMWNk9OjRejxKU6WlpUlpaalzKSwsdGubAQCAlwQVNZOnU6dOLuvi4+Pl0KFD+vuoqCj99ejRoy77qMeObbUFBARIcHCwywIAAOzP7UFFzfjJz893Wbdv3z65/PLLnQNrVSDJyclxbldjTtTsn8TERHc3BwAAeDC3z/qZNGmS3HDDDfrUz5133inbt2+XV155RS+Kj4+PTJw4UWbPnq3HsajgMmPGDImOjpZhw4a5uzkAAJzXGUvMNjM8qPTo0UNWr16tx5XMmjVLBxE1HXnkyJHOfaZOnSrl5eV6/EpJSYn07t1bsrOzJTAw0N3NAQAAHqxZLqH/m9/8Ri/1UVUVFWLUAgAAmi6uVkXHbrgpIQAAMBZBBQAAGIugAgAAjEVQAQAAxiKoAAAAYxFUAACAd01PBgDAROd7Kq/dpw6fD1RUAACAsQgqAADAWAQVAABgLIIKAAAwFoNpAQCwqTgb3NmZigoAADAWQQUAABiLoAIAAIxFUAEAAMYiqAAAAGMx68fD2GEE99n6ZZc+AQDOHRUVAABgLIIKAAAwFqd+vJRdTyEBAOyFigoAADAWFRUA54SB0EDzVLrxv6ioAAAAY1FRgdsw7gV2wXsZdhXngVUbKioAAMBYVFQAD8OnfQDehIoKAAAwFkEFAAAYi1M/sC1OkQBo6u8MLoJpDioqAADAWFRUAHg0T5xuCaDhqKgAAADvDSpz5swRHx8fmThxonNdRUWFjB07VsLDw6VNmzaSkpIiR48ebe6mAM3yab7mAgDwoKCyY8cOefnll+Xaa691WT9p0iR57733ZNWqVbJ582Y5cuSIDB8+vDmbAgAAPFCzjVE5ceKEjBw5Ul599VWZPXu2c31paaksWbJEsrKy5JZbbtHrli5dKvHx8fLJJ59Ir169pKUx8hsAAJtXVNSpnUGDBklSUpLL+ry8PKmqqnJZ37FjR4mNjZXc3Nzmag4AAPBAzVJRWblypezatUuf+qmtqKhIWrVqJaGhoS7rIyMj9ba6VFZW6sWhrKysGVoNAABsX1EpLCyURx55RFasWCGBgYFuOWZ6erqEhIQ4l5iYGLccFwAAeFlQUad2iouL5frrrxc/Pz+9qAGzCxYs0N+rysnJkyelpKTE5Xlq1k9UVFSdx0xLS9NjWxyLCkMAAMD+3H7qp1+/fvLFF1+4rLv//vv1OJTHHntMV0P8/f0lJydHT0tW8vPz5dChQ5KYmFjnMQMCAvQCADj/mHoPWwWVtm3byjXXXOOyLigoSF8zxbE+NTVVJk+eLGFhYRIcHCzjx4/XIcWEGT8AAMDLL6H/wgsviK+vr66oqEGyycnJsmjRopZoCgADcUNJz8IlHeDxQWXTpk0uj9Ug24yMDL0AAADUh5sSAnyCxzlg/AbQvLgpIQAAMBZBBQAAGIugAgAAjEVQAQAAxmIwLeClmFIKwBNQUQEAAMYiqAAAAGMRVAAAgLEYowIAQAvcxoGLBTYMFRUAAGAsggoAADAWp34A4Cy4m3PLYzq996KiAgAAjEVQAQAAxiKoAAAAYzFGBQCAs2AqccuhogIAAIxFRQVAo/DJ8vz/7PiZw5tRUQEAAMYiqAAAAGNx6qcZcYEieBtOUXgW/r3gCaioAAAAYxFUAACAsQgqAADAWAQVAABgLIIKAAAwFkEFAAAYi6ACAACMxXVU3IhrEgAAvzPhXlRUAACAsQgqAADAWAQVAABgLIIKAADwnqCSnp4uPXr0kLZt20pERIQMGzZM8vPzXfapqKiQsWPHSnh4uLRp00ZSUlLk6NGj7m4KAADwcG4PKps3b9Yh5JNPPpENGzZIVVWV3HrrrVJeXu7cZ9KkSfLee+/JqlWr9P5HjhyR4cOHu7spAADAw7l9enJ2drbL42XLlunKSl5entx0001SWloqS5YskaysLLnlllv0PkuXLpX4+Hgdbnr16uXuJgEAcN5wqQoPG6OigokSFhamv6rAoqosSUlJzn06duwosbGxkpubW+cxKisrpayszGUBAAD216xBpbq6WiZOnCg33nijXHPNNXpdUVGRtGrVSkJDQ132jYyM1NvqG/cSEhLiXGJiYpqz2QAAwBuCihqr8uWXX8rKlSvP6ThpaWm6MuNYCgsL3dZGAADghZfQHzdunKxbt062bNkil112mXN9VFSUnDx5UkpKSlyqKmrWj9pWl4CAAL0AAADv4vagYlmWjB8/XlavXi2bNm2S9u3bu2zv1q2b+Pv7S05Ojp6WrKjpy4cOHZLExER3NwcA4MUY2Or5/JrjdI+a0fPuu+/qa6k4xp2osSWtW7fWX1NTU2Xy5Ml6gG1wcLAONiqkMOMHAAA0a1BZvHix/tqnTx+X9WoK8u9+9zv9/QsvvCC+vr66oqJm9CQnJ8uiRYvc3RQADcSnTgBedernbAIDAyUjI0MvAAAA9eFePwAAwFgEFQAA4H3TkwHAkzBOBzATFRUAAGAsggoAADAWQQUAABiLoAIAAIxFUAEAAMYiqAAAAGMRVAAAgLEIKgAAwFhc8A2A1/CGi7p5Qx/hXaioAAAAYxFUAACAsQgqAADAWAQVAABgLIIKAAAwFkEFAAAYi6ACAACMRVABAADG4oJvAFrkQmQH5wziJw/grKioAAAAYxFUAACAsQgqAADAWAQVAABgLAbTAmgR3OUXQENQUQEAAMYiqAAAAGMRVAAAgLEYowI0EmMrAOD8oaICAACMRVABAADG4tQPAAAeJq7WvbPsjIoKAAAwVosGlYyMDImLi5PAwEBJSEiQ7du3t2RzAACAYVosqLz11lsyefJkefzxx2XXrl3SpUsXSU5OluLi4pZqEgAAMEyLBZXnn39eRo8eLffff7906tRJMjMz5cILL5TXXnutpZoEAAAM0yKDaU+ePCl5eXmSlpbmXOfr6ytJSUmSm5t72v6VlZV6cSgtLdVfy8rKmqV91ZU/O79vzGvUfF5t7mpr7ddo6nHddRx3HbOpP3N3tedc9m3o8850nKa+Xu3nnqkfZztOU1/jfGjq69f+ubqr7Q1tT3O9vsnOR5+98efaEprjb6zjmJZlNfxJVgs4fPiwaqG1detWl/VTpkyxevbsedr+jz/+uN6fhZ8B7wHeA7wHeA/wHhCP/xkUFhY2ODN4xPRkVXlR41kcqqur5dixYxIeHi4+Pj5iFyppxsTESGFhoQQHB4vdeUt/vaWf3txnb+mvt/TTG/tbdp76qiopx48fl+jo6AY/p0WCysUXXywXXHCBHD161GW9ehwVFXXa/gEBAXqpKTQ0VOxKvUns/p/CG/vrLf305j57S3+9pZ/e2N/g89DXkJAQ8wfTtmrVSrp16yY5OTkuVRL1ODExsSWaBAAADNRip37UqZxRo0ZJ9+7dpWfPnjJ//nwpLy/Xs4AAAABaNKjcdddd8sMPP8jMmTOlqKhIunbtKtnZ2RIZGem1/zLq9Ja6rkzt01x25S399ZZ+enOfvaW/3tJPb+xvgMF99VEjalu6EQAAAHXhXj8AAMBYBBUAAGAsggoAADAWQQUAABiLoHIW6enp0qNHD2nbtq1ERETIsGHDJD8/32WfiooKGTt2rL5Sbps2bSQlJcXlYnafffaZ3H333fqqf61bt5b4+Hh58cUXXY6xadMmfZXd2ouaEXUmaiy0mjnVrl07fWx1v6T9+/e77BMXF3facefMmWPb/irr16+XhIQEvc9FF12k+2G3vtZ3XLXs2LHDdv1V9u3bJ0OHDtUXjVQXperdu7d8+OGHdR7PDv1Vd5b/9a9/rS9wqdo4ZswYOXHihEf185133pFbb73VeSXx3bt3n7bP2dpXmx36/Morr0ifPn30+1jtU1JSYrt+Hjt2TMaPHy9XXXWVfu3Y2FiZMGGC8359DeaOe/fYWXJysrV06VLryy+/tHbv3m0NHDjQio2NtU6cOOHc58EHH7RiYmKsnJwca+fOnVavXr2sG264wbl9yZIl1oQJE6xNmzZZ33zzjfXGG29YrVu3thYuXOjc58MPP9T3P8jPz7e+//575/LLL7+csX1z5syxQkJCrDVr1lifffaZNWTIEKt9+/bWf//7X+c+l19+uTVr1iyX49Zsv936+9e//tW66KKLrMWLF+vj79mzx3rrrbds19fKykqX46nlD3/4g96nurradv1VOnTooNuttu/bt896+OGHrQsvvFAf3279VfdEU+9j1cavv/7a2r59u25bSkqKR/Vz+fLl1pNPPmm9+uqr+vmffvrpafucrX212aHPL7zwgpWenq4Xtc9PP/1ku35+8cUX1vDhw621a9daBw4c0G1U/4drv4fPhqDSSMXFxfofZPPmzfpxSUmJ5e/vb61atcq5z969e/U+ubm59R5H/YLt27fvaW+Uut6s9VF/jKKioqznnnvOuU61JyAgwHrzzTddgor6T+EN/a2qqrIuvfRS689//rPt+1rbyZMnrUsuuUSHUjv294cfftDH3bJli3OfsrIyvW7Dhg226+/LL79sRUREuPyx+Pzzz/Vr7d+/3yP6WVNBQUGdf8ya2j5P7nNNjXmNYg/up8Pbb79ttWrVSv+ubihO/TSSo2QVFhamv+bl5UlVVZUu2zp07NhRl7hyc3PPeBzHMWpSF75TpWBV7v3444/P2JaCggJdmqv52uoeCuqUR+3XVqd6VHnuuuuuk+eee05OnTply/6qUvnhw4fF19dX91Ude8CAAfLll1/arq+1rV27Vn788ccGX93Z0/qr3r+qhLx8+XJ9FWv1Hn755Zd1SVzdksNu/a2srNS3G1HvZQdVPlc++ugjj+hnQzS1fbXb6kl9bqpSG/RTvbY63eXn1/DrzRJUGkHdj2jixIly4403yjXXXKPXqV826pdJ7Zskqivs1nd+b+vWrfLWW2/p880O6s2RmZkpf/vb3/Sizieq85fqD299HMevfTXf2q+tzgmuXLlSn8t/4IEH5JlnnpGpU6fasr/ffvut/vrEE0/I9OnTZd26dXqMijq2Ol9qp77WtmTJEklOTpbLLrus3uN6cn/VOfAPPvhAPv30U33OPjAwUJ5//nl9RWv1b2y3/t5yyy36e/XB4uTJk/LTTz/JtGnT9Lbvv//eI/rZEE1pn6f3uSmqbdDP//znP/LUU0+5vHaDNKnO46XUuUB1GqWwsNC5bsWKFbqMVVuPHj2sqVOnnrZenbO7+OKLraeeeuqsr3fTTTdZ99xzj/7+L3/5ixUUFORcVPn7448/1uW2I0eOuDzvjjvusO688856j6vOWfr5+VkVFRW2669qn9pHlc0dVD9VGzIzM23V15pUu319ffX4nIbwxP6q0yVqHMeAAQOsjz76yMrLy7Meeughfaqv9vPs0F9HGyMjI60LLrhAt/WPf/yjfqzGt3hCPxtyeqCx7bNDn2tq6GmXBz28n6WlpVbPnj2t/v3769PUjdFi9/rxNOPGjdOfzrds2eLyiTUqKkp/2lEjtmumWjXqWm2r6auvvpJ+/frpNKk+7Z+Nulmjo8Q7ZMgQXRZ2uPTSS52fqtRrqURc87VVCa8+6jiqbH7w4EFdSrdTfx3rO3Xq5Nyu7l3xq1/9Sg4dOmSrvta0dOlSfWpEHetsPLW/Gzdu1O1WlQXHbegXLVokGzZskNdff91ZbbBLf5Xf/va3elHrg4KCdFVJVZHU+9kT+tkQjWmfXfrcWOM8vJ/Hjx+X/v3760ro6tWrxd/fv1HPp6JyFupT3NixY63o6Gg9y6A2x2Cmmp9k1Qj92oOZ1KhtNTBuypQpDU6RSUlJ1m233XbWAXnz5s1zSa1nGnDpSMfq0/exY8ds11/H45qDaVV6V22pWWWxQ19r7qtmizz66KNnfE1P76+aOaDet8ePH3d57pVXXmk9/fTTtutvfdVQNcup5qdvk/vZmMG0Z2tfTZ7e54ZWVOzQz9LSUj0T6eabb7bKy8utpiConIUqLasphGpqV81pWz///LNLSU5NGdu4caOeHpaYmKiXmuU2NRtDldFqHkON4HZQs3LUNEU1ml/t/8gjj+hfyh988MEZ26dKwKGhoda7776rZwQMHTrUZYrj1q1b9bHV1DY1NU2FFNWW++67z5b9VdSx1OmA999/X/+nTU1N1f9JawczO/RVUcdRvyTUaP8z8fT+qlk/4eHherqjej+rqZTqVIj6Ra0e262/ippCqk5xqb6+9NJLelrpiy++6FH9/PHHH/UfsPXr1+v36cqVK/XjmlPKz9a+2uzQZ/W9WueY2qtOp6jH6rl26acKKQkJCVbnzp319OSar3/q1CmroQgqZ/sBidS5qLntDuoXi5rupa55oD7tqBRa8w35+OOP13kMdb7RYe7cudYVV1xhBQYGWmFhYVafPn30G+9sVOKeMWOGPm+tPo3169dP/1JzUL/k1BtFvdnVsePj461nnnmm3vEpnt5fRwVFVRdUOGnbtq3+ZKA+Udixr8rdd999xmtO2Km/O3bssG699VZ9XPVvqz6p/f3vf7dtf++99159TDUO4dprr9XXrfC0fqp21HVs9ZoNbZ8d+1zf69fsg6f388P/qxbVtagqTEP5/N8PAwAAwDhMTwYAAMYiqAAAAGMRVAAAgLEIKgAAwFgEFQAAYCyCCgAAMBZBBQAAGIugAgAAjEVQAQAAxiKoAAAAYxFUAACAsQgqAABATPU/H9NeMT76UNYAAAAASUVORK5CYII=",
+      "text/plain": [
+       "<Figure size 640x480 with 1 Axes>"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "source": [
+    "import matplotlib.pyplot as plt\n",
+    "\n",
+    "plt.hist(data[\"message_dt\"], bins=data[\"message_dt\"].nunique());"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 18,
+   "id": "b144db75",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>message_dt</th>\n",
+       "      <th>message_id</th>\n",
+       "      <th>channel_id</th>\n",
+       "      <th>content</th>\n",
+       "      <th>views</th>\n",
+       "      <th>original_author</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "Empty DataFrame\n",
+       "Columns: [message_dt, message_id, channel_id, content, views, original_author]\n",
+       "Index: []"
+      ]
+     },
+     "execution_count": 18,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "data.loc[data[\"message_dt\"] == pd.to_datetime(\"2025-04-20\")]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "396744bd",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "questions = [\n",
+    "    \"Как повел себя российский рынок 13 марта 2025 года?\",\n",
+    "    \"Как повел себя российский рынок после слов Путина о соглашении прекратить боевые действия на Украине?\",\n",
+    "]\n",
+    "\n",
+    "answers = [\n",
+    "    \"\"\n",
+    "]\n",
+    "\n",
+    "links_to_answers = [\n",
+    "    \"https://t.me/rbc_news/113818\",\n",
+    "    \"https://t.me/rbc_news/113818\",\n",
+    "    \n",
+    "]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "f15ce769",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Установка зависимостей (если нужно)\n",
+    "# !pip install openai pydantic python-dotenv\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "98abb469",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from dotenv import load_dotenv\n",
+    "from openai import OpenAI\n",
+    "from pydantic import BaseModel, Field\n",
+    "from typing import Literal\n",
+    "import json\n",
+    "\n",
+    "load_dotenv()\n",
+    "\n",
+    "# Инициализация клиента OpenRouter\n",
+    "# Получите API ключ на https://openrouter.ai/\n",
+    "OPENROUTER_API_KEY = os.getenv(\"OPENROUTER_API_KEY\")\n",
+    "OPENROUTER_BASE_URL = \"https://openrouter.ai/api/v1\"\n",
+    "\n",
+    "client = OpenAI(\n",
+    "    base_url=OPENROUTER_BASE_URL,\n",
+    "    api_key=OPENROUTER_API_KEY,\n",
+    ")\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "59c6a4e5",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Определение структурированных моделей для вывода\n",
+    "\n",
+    "class MainMessage(BaseModel):\n",
+    "    \"\"\"Основная мысль/сообщение новостного поста\"\"\"\n",
+    "    main_topic: str = Field(\n",
+    "        description=\"Основная тема или предмет новостного поста (например: 'Выпуск iPhone 17', 'Высказывание политика А о политике Б')\"\n",
+    "    )\n",
+    "    key_entities: list[str] = Field(\n",
+    "        description=\"Ключевые сущности, упомянутые в посте (люди, организации, события, даты)\"\n",
+    "    )\n",
+    "    main_fact_or_statement: str = Field(\n",
+    "        description=\"Основной факт или утверждение, содержащееся в посте\"\n",
+    "    )\n",
+    "    context: str = Field(\n",
+    "        description=\"Дополнительный контекст, необходимый для понимания основной мысли\"\n",
+    "    )\n",
+    "\n",
+    "\n",
+    "class ClassificationResult(BaseModel):\n",
+    "    \"\"\"Результат классификации новостного поста\"\"\"\n",
+    "    is_unambiguous: bool = Field(\n",
+    "        description=\"Является ли основная тема поста однозначной при поиске. True - однозначная (факт), False - неоднозначная (могут быть противоречивые ответы)\"\n",
+    "    )\n",
+    "    confidence: float = Field(\n",
+    "        description=\"Уверенность в классификации от 0.0 до 1.0\",\n",
+    "        ge=0.0,\n",
+    "        le=1.0\n",
+    "    )\n",
+    "    reasoning: str = Field(\n",
+    "        description=\"Обоснование классификации: почему пост считается однозначным или неоднозначным\"\n",
+    "    )\n",
+    "    search_difficulty: Literal[\"easy\", \"medium\", \"hard\"] = Field(\n",
+    "        description=\"Сложность поиска: easy - простой факт, medium - требует контекста, hard - неоднозначный, может иметь противоречивые ответы\"\n",
+    "    )\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "70a3b05e",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "bb6a49ed",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "f972cb96",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "venv",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.13.3"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}

env.example.txt ADDED Viewed

	@@ -0,0 +1,23 @@

+# Telegram API credentials (для парсинга новостей)
+TELEGRAM_API_ID=your_api_id_here
+TELEGRAM_API_HASH=your_api_hash_here
+# PostgreSQL Database credentials
+DB_USER=your_db_user
+DB_PASS=your_db_password
+DB_HOST=your_db_host
+DB_PORT=5432
+DB_NAME=your_db_name
+PATH_TO_CERT=/path/to/ssl/cert.pem
+# Qdrant Vector Database
+QDRANT_URL=http://localhost:6333
+# LLM API Key (OpenRouter)
+OPENROUTER_API_KEY=your_openrouter_api_key_here
+# Chat settings
+CHAT_HISTORY_LENGTH=3  # Количество предыдущих пар (вопрос, ответ) для контекста диалога
+# Backend URL (для frontend)
+BACKEND_URL=http://localhost:8000

frontend.py ADDED Viewed

	@@ -0,0 +1,404 @@

+"""
+Streamlit Frontend для RAG вопросно-ответной системы
+Чат-интерфейс с поддержкой нескольких диалогов
+"""
+import streamlit as st
+from datetime import datetime, timedelta
+from typing import List, Dict, Optional
+import uuid
+from src import RAG
+from src.db_utils.history_utils import (
+    init_history_table,
+    log_query,
+    get_all_history,
+    get_history_by_dialogue,
+    search_history,
+    get_history_stats,
+    delete_history,
+    get_recent_dialogues
+)
+# --- Инициализация RAG ---
+@st.cache_resource(show_spinner=False)
+def get_rag():
+    """Initialize RAG once and cache it"""
+    return RAG(
+        embed_model_name = "Qwen/Qwen3-Embedding-0.6B",
+        embed_index_name = "recursive_Qwen3-Embedding-0.6B"
+    )
+# --- Session State Management ---
+def init_session_state():
+    """Initialize session state variables for chat support"""
+    if "current_dialogue_id" not in st.session_state:
+        st.session_state.current_dialogue_id = None
+    if "chat_list" not in st.session_state:
+        st.session_state.chat_list = []
+    if "current_chat_messages" not in st.session_state:
+        st.session_state.current_chat_messages = []
+    if "chat_names" not in st.session_state:
+        st.session_state.chat_names = {}  # {dialogue_id: custom_name}
+    if "chats_loaded" not in st.session_state:
+        st.session_state.chats_loaded = False
+def generate_dialogue_id() -> str:
+    """Generate unique dialogue ID"""
+    return f"chat_{datetime.now().strftime('%Y%m%d_%H%M%S')}_{uuid.uuid4().hex[:6]}"
+def get_chat_display_name(dialogue_id: str, first_query: str = None) -> str:
+    """Get display name for chat"""
+    if dialogue_id in st.session_state.chat_names:
+        return st.session_state.chat_names[dialogue_id]
+    if first_query:
+        # Use first 40 chars of first query as name
+        name = first_query[:40] + "..." if len(first_query) > 40 else first_query
+        st.session_state.chat_names[dialogue_id] = name
+        return name
+    return "Новый диалог"
+# --- Chat Management Functions ---
+def load_chats_list():
+    """Load all available chats from database"""
+    try:
+        dialogues = get_recent_dialogues(limit=50)
+        st.session_state.chat_list = dialogues
+        st.session_state.chats_loaded = True
+        # If no current chat selected and chats exist, select the first one
+        if not st.session_state.current_dialogue_id and dialogues:
+            switch_to_chat(dialogues[0]["dialogue_id"])
+    except Exception as e:
+        st.error(f"❌ Ошибка при загрузке чатов: {e}")
+        st.session_state.chat_list = []
+def create_new_chat():
+    """Create a new chat"""
+    new_id = generate_dialogue_id()
+    st.session_state.current_dialogue_id = new_id
+    st.session_state.current_chat_messages = []
+    return new_id
+def switch_to_chat(dialogue_id: str):
+    """Switch to an existing chat"""
+    st.session_state.current_dialogue_id = dialogue_id
+    load_chat_messages(dialogue_id)
+def load_chat_messages(dialogue_id: str):
+    """Load messages for a specific chat"""
+    try:
+        history = get_history_by_dialogue(dialogue_id)
+        st.session_state.current_chat_messages = history
+    except Exception as e:
+        st.error(f"❌ Ошибка при загрузке сообщений: {e}")
+        st.session_state.current_chat_messages = []
+def send_message(query: str) -> Optional[Dict]:
+    """Send a message in current chat"""
+    try:
+        if not st.session_state.current_dialogue_id:
+            create_new_chat()
+        # Get RAG and invoke with history
+        rag = get_rag()
+        # Pass current chat history to RAG (it will use last N messages internally for enrichment)
+        result = rag.invoke(query, history=st.session_state.current_chat_messages)
+        # Log to history
+        query_id = log_query(
+            query=query,
+            answer=result.get("answer", ""),
+            reason=result.get("reason", ""),
+            dialogue_id=st.session_state.current_dialogue_id
+        )
+        result["query_id"] = query_id
+        # Update current chat messages
+        load_chat_messages(st.session_state.current_dialogue_id)
+        # Reload chats list to update
+        load_chats_list()
+        return result
+    except Exception as e:
+        st.error(f"❌ Ошибка при отправке сообщения: {e}")
+        return None
+def delete_chat(dialogue_id: str) -> bool:
+    """Delete a chat"""
+    try:
+        delete_history(dialogue_id=dialogue_id)
+        # If deleted current chat, switch to another or create new
+        if st.session_state.current_dialogue_id == dialogue_id:
+            st.session_state.current_dialogue_id = None
+            st.session_state.current_chat_messages = []
+        # Reload chats
+        load_chats_list()
+        return True
+    except Exception as e:
+        st.error(f"❌ Ошибка при удалении чата: {e}")
+        return False
+# --- Page: Chat Interface ---
+def page_chat():
+    """Main chat interface page"""
+    # Custom CSS to fix chat input at the bottom + keyboard shortcuts
+    st.markdown("""
+        <style>
+        /* Fix chat input at the bottom of main content area */
+        section[data-testid="stSidebar"] ~ div .stChatInput {
+            position: fixed;
+            bottom: 0;
+            background: white;
+            padding: 1rem;
+            z-index: 999;
+            border-top: 1px solid #e6e6e6;
+            margin-left: 0;
+        }
+        /* Add padding to main content to prevent overlap with fixed input */
+        .main .block-container {
+            padding-bottom: 100px;
+        }
+        /* Dark mode support */
+        [data-testid="stAppViewContainer"][data-theme="dark"] section[data-testid="stSidebar"] ~ div .stChatInput {
+            background: rgb(14, 17, 23);
+            border-top: 1px solid #333;
+        }
+        /* Adjust width to account for sidebar */
+        @media (min-width: 768px) {
+            section[data-testid="stSidebar"] ~ div .stChatInput {
+                left: var(--sidebar-width, 21rem);
+                right: 0;
+            }
+        }
+        /* When sidebar is collapsed */
+        section[data-testid="stSidebar"][aria-expanded="false"] ~ div .stChatInput {
+            left: 0;
+        }
+        </style>
+        <script>
+        // Add keyboard shortcuts support
+        document.addEventListener('DOMContentLoaded', function() {
+            // Find chat input field
+            const observer = new MutationObserver(function(mutations) {
+                const chatInput = document.querySelector('textarea[data-testid="stChatInput"]');
+                if (chatInput && !chatInput.hasAttribute('data-shortcut-attached')) {
+                    chatInput.setAttribute('data-shortcut-attached', 'true');
+                    // Add keyboard event listener
+                    chatInput.addEventListener('keydown', function(e) {
+                        // Enter (without Shift) - send message
+                        if (e.key === 'Enter' && !e.shiftKey) {
+                            e.preventDefault();
+                            // Trigger the send button
+                            const sendButton = document.querySelector('button[kind="primary"]');
+                            if (sendButton) {
+                                sendButton.click();
+                            }
+                        }
+                        // Ctrl+Enter or Cmd+Enter - send message (alternative)
+                        else if (e.key === 'Enter' && (e.ctrlKey || e.metaKey)) {
+                            e.preventDefault();
+                            const sendButton = document.querySelector('button[kind="primary"]');
+                            if (sendButton) {
+                                sendButton.click();
+                            }
+                        }
+                        // Shift+Enter - new line (default behavior)
+                    });
+                }
+            });
+            observer.observe(document.body, {
+                childList: true,
+                subtree: true
+            });
+        });
+        </script>
+    """, unsafe_allow_html=True)
+    # Check if we have a current chat
+    if not st.session_state.current_dialogue_id:
+        # Show welcome screen
+        st.title("💬 Чат с RAG системой")
+        st.markdown("---")
+        col1, col2, col3 = st.columns([1, 2, 1])
+        with col2:
+            st.info("👋 Добро пожаловать! Создайте новый чат или выберите существующий из списка слева.")
+            if st.button("🆕 Начать новый чат", type="primary", use_container_width=True):
+                create_new_chat()
+                st.rerun()
+        return
+    # Display chat header
+    if st.session_state.current_chat_messages:
+        chat_name = get_chat_display_name(
+            st.session_state.current_dialogue_id,
+            st.session_state.current_chat_messages[0]["query"]
+        )
+    else:
+        chat_name = "Новый диалог"
+    col1, col2 = st.columns([4, 1])
+    with col1:
+        st.title(f"💬 {chat_name}")
+    with col2:
+        if st.button("🗑️ Удалить чат", use_container_width=True):
+            if delete_chat(st.session_state.current_dialogue_id):
+                st.success("✅ Чат удален")
+                st.rerun()
+    st.markdown("---")
+    # Chat messages container
+    if not st.session_state.current_chat_messages:
+        st.info("📝 Начните диалог, задав первый вопрос ниже")
+    else:
+        # Display all messages
+        for msg in st.session_state.current_chat_messages:
+            # User message
+            with st.chat_message("user"):
+                st.markdown(msg["query"])
+                timestamp_str = msg.get("timestamp", "")
+                try:
+                    dt = datetime.fromisoformat(timestamp_str)
+                    st.caption(f"🕐 {dt.strftime('%H:%M:%S')}")
+                except:
+                    pass
+            # Assistant message
+            with st.chat_message("assistant"):
+                st.markdown(msg["answer"])
+                # Show reasoning in expander
+                if msg.get("reason"):
+                    with st.expander("📝 Обоснование"):
+                        st.markdown(msg["reason"])
+    # Input area - fixed at the bottom via CSS
+    query = st.chat_input(
+        "Введите ваш вопрос...",
+        key="chat_input"
+    )
+    if query:
+        # Send message and get response
+        with st.spinner("🤔 Думаю..."):
+            result = send_message(query)
+            if result:
+                st.rerun()
+# --- Main App ---
+def main():
+    st.set_page_config(
+        page_title="RAG Chat System",
+        page_icon="💬",
+        layout="wide",
+        initial_sidebar_state="expanded"
+    )
+    # Initialize history table on startup
+    try:
+        init_history_table()
+    except Exception as e:
+        st.error(f"⚠️ Не удалось инициализировать таблицу истории: {e}")
+    # Initialize session state
+    init_session_state()
+    # Load chats list if not loaded
+    if not st.session_state.chats_loaded:
+        load_chats_list()
+    # Sidebar
+    with st.sidebar:
+        st.title("💬 RAG Chat")
+        # New chat button
+        if st.button("➕ Новый чат", use_container_width=True, type="primary"):
+            create_new_chat()
+            st.rerun()
+        st.markdown("---")
+        # Chats list
+        st.subheader("📝 Ваши чаты")
+        if not st.session_state.chat_list:
+            st.info("Нет чатов. Создайте новый!")
+        else:
+            # Display chats
+            for chat in st.session_state.chat_list:
+                dialogue_id = chat["dialogue_id"]
+                message_count = chat.get("message_count", 0)
+                started_at = chat.get("started_at", "")
+                # Get chat name (only load history if chat has messages)
+                if message_count > 0:
+                    history = get_history_by_dialogue(dialogue_id)
+                    first_query = history[0]["query"] if history else None
+                else:
+                    first_query = None
+                chat_name = get_chat_display_name(dialogue_id, first_query)
+                # Format time
+                try:
+                    dt = datetime.fromisoformat(started_at)
+                    time_str = dt.strftime('%d.%m %H:%M')
+                except:
+                    time_str = ""
+                # Check if this is current chat
+                is_current = dialogue_id == st.session_state.current_dialogue_id
+                # Format button text with chat name and metadata
+                button_text = f"{'📌' if is_current else '💬'} {chat_name}\n💬 {message_count} • {time_str}"
+                if st.button(
+                    button_text,
+                    key=f"chat_{dialogue_id}",
+                    use_container_width=True,
+                    type="primary" if is_current else "secondary"
+                ):
+                    switch_to_chat(dialogue_id)
+                    st.rerun()
+    # Main content area
+    page_chat()
+if __name__ == "__main__":
+    main()

news_classification_langgraph.ipynb ADDED Viewed

	@@ -0,0 +1,697 @@

+{
+  "cells": [
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "# Пайплайн классификации новостных постов (LangGraph)\n",
+        "\n",
+        "Этот пайплайн реализован с использованием **LangGraph** и состоит из двух узлов:\n",
+        "1. **Узел извлечения** - вычленяет основную мысль/сообщение из новостного поста\n",
+        "2. **Узел классификации** - определяет, является ли основная тема однозначной при поиске\n",
+        "\n",
+        "LangGraph позволяет строить графовые структуры агентов с явным управлением состоянием и потоком данных.\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# Установка зависимостей (раскомментируйте при необходимости)\n",
+        "# !pip install langgraph langchain langchain-openai pydantic python-dotenv pandas tqdm\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "import os\n",
+        "from typing import Literal, Optional, TypedDict, Annotated\n",
+        "from dotenv import load_dotenv\n",
+        "from pydantic import BaseModel, Field\n",
+        "from langchain_openai import ChatOpenAI\n",
+        "from langchain_core.prompts import ChatPromptTemplate\n",
+        "from langchain_core.output_parsers import PydanticOutputParser\n",
+        "from langgraph.graph import StateGraph, END\n",
+        "import pandas as pd\n",
+        "from tqdm import tqdm\n",
+        "import operator\n",
+        "\n",
+        "load_dotenv()\n",
+        "\n",
+        "# Проверка наличия API ключа\n",
+        "OPENROUTER_API_KEY = os.getenv(\"OPENROUTER_API_KEY\")\n",
+        "if not OPENROUTER_API_KEY:\n",
+        "    raise ValueError(\"Не найден OPENROUTER_API_KEY в переменных окружения\")\n",
+        "\n",
+        "print(\"✅ API ключ загружен\")\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Определение структурированных моделей вывода\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "class MainMessage(BaseModel):\n",
+        "    \"\"\"Основная мысль/сообщение новостного поста\"\"\"\n",
+        "    \n",
+        "    main_topic: str = Field(\n",
+        "        description=\"Основная тема или предмет новостного поста (например: 'Выпуск iPhone 17', 'Высказывание политика А о политике Б')\"\n",
+        "    )\n",
+        "    key_entities: list[str] = Field(\n",
+        "        description=\"Ключевые сущности, упомянутые в посте (люди, организации, события, даты, места)\"\n",
+        "    )\n",
+        "    main_fact_or_statement: str = Field(\n",
+        "        description=\"Основной факт или утверждение, содержащееся в посте\"\n",
+        "    )\n",
+        "    temporal_context: Optional[str] = Field(\n",
+        "        default=None,\n",
+        "        description=\"Временной контекст события (конкретная дата, период, или 'текущий момент')\"\n",
+        "    )\n",
+        "    additional_context: str = Field(\n",
+        "        description=\"Дополнительный контекст, необходимый для понимания основной мысли\"\n",
+        "    )\n",
+        "\n",
+        "\n",
+        "class ClassificationResult(BaseModel):\n",
+        "    \"\"\"Результат классификации новостного поста по однозначности поиска\"\"\"\n",
+        "    \n",
+        "    is_unambiguous: bool = Field(\n",
+        "        description=\"Является ли основная тема поста однозначной при поиске. True - однозначная (конкретный факт), False - неоднозначная (могут быть противоречивые ответы)\"\n",
+        "    )\n",
+        "    confidence: float = Field(\n",
+        "        description=\"Уверенность в классификации от 0.0 до 1.0\",\n",
+        "        ge=0.0,\n",
+        "        le=1.0\n",
+        "    )\n",
+        "    category: Literal[\"fact\", \"opinion\", \"statement\", \"event\", \"mixed\"] = Field(\n",
+        "        description=\"Категория контента: fact - чистый факт, opinion - мнение, statement - высказывание/заявление, event - событие, mixed - смешанный\"\n",
+        "    )\n",
+        "    search_difficulty: Literal[\"easy\", \"medium\", \"hard\"] = Field(\n",
+        "        description=\"Сложность поиска: easy - простой уникальный факт, medium - требует временного контекста, hard - неоднозначный, может иметь противоречивые ответы\"\n",
+        "    )\n",
+        "    ambiguity_reasons: list[str] = Field(\n",
+        "        default_factory=list,\n",
+        "        description=\"Причины неоднозначности (если есть): изменчивость позиции, множественные источники, субъективность и т.д.\"\n",
+        "    )\n",
+        "    reasoning: str = Field(\n",
+        "        description=\"Подробное обоснование классификации\"\n",
+        "    )\n",
+        "    suggested_search_query: str = Field(\n",
+        "        description=\"Предлагаемый поисковый запрос для нахождения этой информации\"\n",
+        "    )\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Определение состояния графа (LangGraph State)\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# Определение состояния графа\n",
+        "# TypedDict используется для определения схемы состояния, которое передается между узлами\n",
+        "\n",
+        "class GraphState(TypedDict):\n",
+        "    \"\"\"Состояние, передаваемое между узлами графа\"\"\"\n",
+        "    \n",
+        "    # Входные данные\n",
+        "    original_text: str\n",
+        "    \n",
+        "    # Результат извлечения (заполняется узлом extraction)\n",
+        "    main_message: Optional[MainMessage]\n",
+        "    \n",
+        "    # Результат классификации (заполняется узлом classification)\n",
+        "    classification: Optional[ClassificationResult]\n",
+        "    \n",
+        "    # Статус обработки\n",
+        "    error: Optional[str]\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Настройка LLM через OpenRouter\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# Настройка LLM через OpenRouter\n",
+        "\n",
+        "def create_llm(model: str = \"openai/gpt-4o-mini\", temperature: float = 0.0) -> ChatOpenAI:\n",
+        "    \"\"\"Создает экземпляр LLM через OpenRouter\"\"\"\n",
+        "    return ChatOpenAI(\n",
+        "        model=model,\n",
+        "        temperature=temperature,\n",
+        "        openai_api_key=OPENROUTER_API_KEY,\n",
+        "        openai_api_base=\"https://openrouter.ai/api/v1\",\n",
+        "    )\n",
+        "\n",
+        "# Модель для использования\n",
+        "MODEL_NAME = \"openai/gpt-4o-mini\"\n",
+        "\n",
+        "# Создаем LLM\n",
+        "llm = create_llm(MODEL_NAME)\n",
+        "\n",
+        "print(f\"✅ Используемая модель: {MODEL_NAME}\")\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Определение узлов графа (Nodes)\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# Узел 1: Извлечение основной мысли\n",
+        "\n",
+        "extraction_parser = PydanticOutputParser(pydantic_object=MainMessage)\n",
+        "\n",
+        "extraction_prompt = ChatPromptTemplate.from_messages([\n",
+        "    (\"system\", \"\"\"Ты - эксперт по анализу новостного контента. Твоя задача - извлечь основную мысль и ключевую информацию из новостного поста.\n",
+        "\n",
+        "Анализируй текст внимательно и выдели:\n",
+        "1. Основную тему поста\n",
+        "2. Все ключевые сущности (люди, организации, места, даты, события)\n",
+        "3. Главн��й факт или утверждение\n",
+        "4. Временной контекст (когда это произошло/происходит)\n",
+        "5. Дополнительный контекст для понимания\n",
+        "\n",
+        "{format_instructions}\"\"\"),\n",
+        "    (\"human\", \"Проанализируй следующий новостной пост и извлеки основную мысль:\\n\\n{text}\")\n",
+        "])\n",
+        "\n",
+        "extraction_chain = extraction_prompt | llm | extraction_parser\n",
+        "\n",
+        "\n",
+        "def extraction_node(state: GraphState) -> dict:\n",
+        "    \"\"\"\n",
+        "    Узел извлечения основной мысли.\n",
+        "    Принимает состояние, извлекает основную мысль и возвращает обновление состояния.\n",
+        "    \"\"\"\n",
+        "    try:\n",
+        "        result = extraction_chain.invoke({\n",
+        "            \"text\": state[\"original_text\"],\n",
+        "            \"format_instructions\": extraction_parser.get_format_instructions()\n",
+        "        })\n",
+        "        return {\"main_message\": result, \"error\": None}\n",
+        "    except Exception as e:\n",
+        "        return {\"main_message\": None, \"error\": f\"Ошибка извлечения: {str(e)}\"}\n",
+        "\n",
+        "\n",
+        "print(\"✅ Узел извлечения определен\")\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# Узел 2: Классификация по однозначности\n",
+        "\n",
+        "classification_parser = PydanticOutputParser(pydantic_object=ClassificationResult)\n",
+        "\n",
+        "classification_prompt = ChatPromptTemplate.from_messages([\n",
+        "    (\"system\", \"\"\"Ты - эксперт по классификации новостного контента для поисковых систем.\n",
+        "\n",
+        "Твоя задача - определить, является ли новостной пост ОДНОЗНАЧНЫМ или НЕОДНОЗНАЧНЫМ для поиска.\n",
+        "\n",
+        "## Критерии ОДНОЗНАЧНОГО контента (is_unambiguous=True):\n",
+        "- Конкретные факты с точными датами и цифрами (\"Apple выпустила iPhone 17 15 сентября 2025\")\n",
+        "- Уникальные события, которые произошли один раз\n",
+        "- Официальные решения, законы, назначения\n",
+        "- Результаты спортивных событий, выборов\n",
+        "- Финансовые показатели за конкретный период\n",
+        "\n",
+        "## Критерии НЕОДНОЗНАЧНОГО контента (is_unambiguous=False):\n",
+        "- Высказывания и мнения, которые могут меняться со временем\n",
+        "- Позиции политиков/персон по вопросам (\"политик А заявил о политике Б\")\n",
+        "- Прогнозы и ожидания\n",
+        "- Оценочные суждения\n",
+        "- События без точной привязки ко времени\n",
+        "- Темы, где возможны противоречивые источники\n",
+        "\n",
+        "## Сложность поиска:\n",
+        "- easy: Уникальный факт, легко найти один правильный ответ\n",
+        "- medium: Требует временного/контекстного уточнения\n",
+        "- hard: Высокая вероятность найти противоречивые ответы\n",
+        "\n",
+        "{format_instructions}\"\"\"),\n",
+        "    (\"human\", \"\"\"Проклассифицируй следующий новостной контент:\n",
+        "\n",
+        "## Оригинальный текст:\n",
+        "{original_text}\n",
+        "\n",
+        "## Извлечённая основная мысль:\n",
+        "- Тема: {main_topic}\n",
+        "- Ключевые сущности: {key_entities}\n",
+        "- Основной факт/утверждение: {main_fact}\n",
+        "- Временной контекст: {temporal_context}\n",
+        "- Дополнительный контекст: {additional_context}\n",
+        "\n",
+        "Определи, является ли этот контент однозначным для поиска.\"\"\")\n",
+        "])\n",
+        "\n",
+        "classification_chain = classification_prompt | llm | classification_parser\n",
+        "\n",
+        "\n",
+        "def classification_node(state: GraphState) -> dict:\n",
+        "    \"\"\"\n",
+        "    Узел классификации контента.\n",
+        "    Принимает состояние с извлеченной мыслью и классифицирует её.\n",
+        "    \"\"\"\n",
+        "    # Проверяем, есть ли ошибка на предыдущем шаге\n",
+        "    if state.get(\"error\"):\n",
+        "        return {\"classification\": None}\n",
+        "    \n",
+        "    main_message = state.get(\"main_message\")\n",
+        "    if not main_message:\n",
+        "        return {\"classification\": None, \"error\": \"Отсутствует main_message для классификации\"}\n",
+        "    \n",
+        "    try:\n",
+        "        result = classification_chain.invoke({\n",
+        "            \"original_text\": state[\"original_text\"],\n",
+        "            \"main_topic\": main_message.main_topic,\n",
+        "            \"key_entities\": \", \".join(main_message.key_entities),\n",
+        "            \"main_fact\": main_message.main_fact_or_statement,\n",
+        "            \"temporal_context\": main_message.temporal_context or \"не указан\",\n",
+        "            \"additional_context\": main_message.additional_context,\n",
+        "            \"format_instructions\": classification_parser.get_format_instructions()\n",
+        "        })\n",
+        "        return {\"classification\": result}\n",
+        "    except Exception as e:\n",
+        "        return {\"classification\": None, \"error\": f\"Ошибка классификации: {str(e)}\"}\n",
+        "\n",
+        "\n",
+        "print(\"✅ Узел классификации определен\")\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Построение графа LangGraph\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# Создание графа\n",
+        "workflow = StateGraph(GraphState)\n",
+        "\n",
+        "# Добавляем узлы\n",
+        "workflow.add_node(\"extraction\", extraction_node)\n",
+        "workflow.add_node(\"classification\", classification_node)\n",
+        "\n",
+        "# Определяем входную точку\n",
+        "workflow.set_entry_point(\"extraction\")\n",
+        "\n",
+        "# Добавляем рёбра (переходы между узлами)\n",
+        "workflow.add_edge(\"extraction\", \"classification\")\n",
+        "workflow.add_edge(\"classification\", END)\n",
+        "\n",
+        "# Компилируем граф\n",
+        "graph = workflow.compile()\n",
+        "\n",
+        "print(\"✅ Граф LangGraph скомпилирован\")\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# Визуализация графа (опционально)\n",
+        "try:\n",
+        "    from IPython.display import Image, display\n",
+        "    display(Image(graph.get_graph().draw_mermaid_png()))\n",
+        "except Exception as e:\n",
+        "    print(f\"Визуализация недоступна: {e}\")\n",
+        "    print(\"\\nСтруктура графа:\")\n",
+        "    print(\"  [START] → extraction → classification → [END]\")\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Обёртка пайплайна\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "class PipelineResult(BaseModel):\n",
+        "    \"\"\"Полный результат работы пайплайна\"\"\"\n",
+        "    original_text: str\n",
+        "    main_message: Optional[MainMessage]\n",
+        "    classification: Optional[ClassificationResult]\n",
+        "    error: Optional[str] = None\n",
+        "\n",
+        "\n",
+        "class NewsClassificationPipeline:\n",
+        "    \"\"\"Обёртка над графом LangGraph для удобного использования\"\"\"\n",
+        "    \n",
+        "    def __init__(self, compiled_graph=None):\n",
+        "        self.graph = compiled_graph or graph\n",
+        "    \n",
+        "    def process(self, text: str) -> PipelineResult:\n",
+        "        \"\"\"Обрабатывает один новостной пост через граф\"\"\"\n",
+        "        initial_state = {\n",
+        "            \"original_text\": text,\n",
+        "            \"main_message\": None,\n",
+        "            \"classification\": None,\n",
+        "            \"error\": None\n",
+        "        }\n",
+        "        \n",
+        "        # Запускаем граф\n",
+        "        final_state = self.graph.invoke(initial_state)\n",
+        "        \n",
+        "        return PipelineResult(\n",
+        "            original_text=text,\n",
+        "            main_message=final_state.get(\"main_message\"),\n",
+        "            classification=final_state.get(\"classification\"),\n",
+        "            error=final_state.get(\"error\")\n",
+        "        )\n",
+        "    \n",
+        "    def process_batch(self, texts: list[str], show_progress: bool = True) -> list[PipelineResult]:\n",
+        "        \"\"\"Обрабатывает список постов\"\"\"\n",
+        "        results = []\n",
+        "        iterator = tqdm(texts, desc=\"Обработка постов\") if show_progress else texts\n",
+        "        \n",
+        "        for text in iterator:\n",
+        "            result = self.process(text)\n",
+        "            results.append(result)\n",
+        "        \n",
+        "        return results\n",
+        "    \n",
+        "    def stream(self, text: str):\n",
+        "        \"\"\"Потоковая обработка с выводом промежуточных состояний\"\"\"\n",
+        "        initial_state = {\n",
+        "            \"original_text\": text,\n",
+        "            \"main_message\": None,\n",
+        "            \"classification\": None,\n",
+        "            \"error\": None\n",
+        "        }\n",
+        "        \n",
+        "        for event in self.graph.stream(initial_state):\n",
+        "            yield event\n",
+        "\n",
+        "\n",
+        "# Создаем экземпляр пайплайна\n",
+        "pipeline = NewsClassificationPipeline()\n",
+        "print(\"✅ Пайплайн LangGraph готов к работе\")\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Демонстрация работы пайплайна\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# Примеры для тестирования\n",
+        "test_posts = [\n",
+        "    \"\"\"▪️Apple представила iPhone 17 на презентации 10 сентября 2025 года. \n",
+        "    Новый смартфон получил процессор A19 Bionic и камеру на 200 мегапикселей. \n",
+        "    Цена в России начинается от 129 990 рублей.\"\"\",\n",
+        "    \n",
+        "    \"\"\"▪️Путин заявил о готовности к переговорам по Украине.\n",
+        "    «Мы всегда открыты к диалогу», – подчеркнул президент на встрече с журналистами.\n",
+        "    При этом он отметил, что условия для переговоров должны учитывать интересы России.\"\"\",\n",
+        "    \n",
+        "    \"\"\"▪️Роскомнадзор сообщил об ограничении звонков через Telegram и WhatsApp.\n",
+        "    «По данным правоохранительных органов, иностранные мессенджеры стали основными \n",
+        "    голосовыми сервисами для обмана граждан», – пояснили в пресс-службе ведомства.\"\"\",\n",
+        "    \n",
+        "    \"\"\"▪️Индекс Мосбиржи упал на 3,2% по итогам торгов 13 марта 2025 года.\n",
+        "    Основными аутсайдерами стали акции Сбербанка (-4,5%) и Газпрома (-3,8%).\n",
+        "    Аналитики связывают падение с геополитической напряжённостью.\"\"\"\n",
+        "]\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# Демонстрация потоковой обработки (streaming) - уникальная возможность LangGraph\n",
+        "print(\"🔄 Потоковая обработка первого поста:\\n\")\n",
+        "print(f\"Текст: {test_posts[0][:100]}...\\n\")\n",
+        "\n",
+        "for step in pipeline.stream(test_posts[0]):\n",
+        "    node_name = list(step.keys())[0]\n",
+        "    print(f\"📍 Узел: {node_name}\")\n",
+        "    \n",
+        "    if node_name == \"extraction\" and step[node_name].get(\"main_message\"):\n",
+        "        msg = step[node_name][\"main_message\"]\n",
+        "        print(f\"   Тема: {msg.main_topic}\")\n",
+        "        print(f\"   Сущности: {', '.join(msg.key_entities)}\")\n",
+        "    \n",
+        "    if node_name == \"classification\" and step[node_name].get(\"classification\"):\n",
+        "        cls = step[node_name][\"classification\"]\n",
+        "        status = \"✅ ОДНОЗНАЧНЫЙ\" if cls.is_unambiguous else \"⚠️ НЕОДНОЗНАЧНЫЙ\"\n",
+        "        print(f\"   Статус: {status}\")\n",
+        "        print(f\"   Сложность: {cls.search_difficulty}\")\n",
+        "    print()\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# Обработка всех тестовых примеров\n",
+        "results = []\n",
+        "\n",
+        "for i, post in enumerate(test_posts, 1):\n",
+        "    print(f\"\\n{'='*80}\")\n",
+        "    print(f\"📰 ПОСТ #{i}\")\n",
+        "    print(f\"{'='*80}\")\n",
+        "    print(post[:200] + \"...\" if len(post) > 200 else post)\n",
+        "    \n",
+        "    result = pipeline.process(post)\n",
+        "    results.append(result)\n",
+        "    \n",
+        "    if result.error:\n",
+        "        print(f\"\\n❌ Ошибка: {result.error}\")\n",
+        "        continue\n",
+        "    \n",
+        "    print(f\"\\n📋 ОСНОВНАЯ МЫСЛЬ:\")\n",
+        "    print(f\"   Тема: {result.main_message.main_topic}\")\n",
+        "    print(f\"   Сущности: {', '.join(result.main_message.key_entities)}\")\n",
+        "    print(f\"   Факт: {result.main_message.main_fact_or_statement}\")\n",
+        "    print(f\"   Время: {result.main_message.temporal_context}\")\n",
+        "    \n",
+        "    print(f\"\\n🎯 КЛАССИФИКАЦИЯ:\")\n",
+        "    status = \"✅ ОДНОЗНАЧНЫЙ\" if result.classification.is_unambiguous else \"⚠️ НЕОДНОЗНАЧНЫЙ\"\n",
+        "    print(f\"   Статус: {status}\")\n",
+        "    print(f\"   Уверенность: {result.classification.confidence:.0%}\")\n",
+        "    print(f\"   Категория: {result.classification.category}\")\n",
+        "    print(f\"   Сложность поиска: {result.classification.search_difficulty}\")\n",
+        "    if result.classification.ambiguity_reasons:\n",
+        "        print(f\"   Причины неоднозначности: {', '.join(result.classification.ambiguity_reasons)}\")\n",
+        "    print(f\"   Поисковый запрос: {result.classification.suggested_search_query}\")\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Преобразование результатов в DataFrame\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "def results_to_dataframe(results: list[PipelineResult]) -> pd.DataFrame:\n",
+        "    \"\"\"Преобразует результаты в pandas DataFrame\"\"\"\n",
+        "    rows = []\n",
+        "    \n",
+        "    for r in results:\n",
+        "        if r.error or not r.main_message or not r.classification:\n",
+        "            continue\n",
+        "            \n",
+        "        rows.append({\n",
+        "            \"original_text\": r.original_text[:100] + \"...\",\n",
+        "            \"main_topic\": r.main_message.main_topic,\n",
+        "            \"key_entities\": \", \".join(r.main_message.key_entities),\n",
+        "            \"main_fact\": r.main_message.main_fact_or_statement,\n",
+        "            \"temporal_context\": r.main_message.temporal_context,\n",
+        "            \"is_unambiguous\": r.classification.is_unambiguous,\n",
+        "            \"confidence\": r.classification.confidence,\n",
+        "            \"category\": r.classification.category,\n",
+        "            \"search_difficulty\": r.classification.search_difficulty,\n",
+        "            \"ambiguity_reasons\": \", \".join(r.classification.ambiguity_reasons),\n",
+        "            \"suggested_query\": r.classification.suggested_search_query\n",
+        "        })\n",
+        "    \n",
+        "    return pd.DataFrame(rows)\n",
+        "\n",
+        "\n",
+        "df_results = results_to_dataframe(results)\n",
+        "df_results\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Применение к реальным данным\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# Загрузка реальных данных\n",
+        "data = pd.read_csv('src/dataset/rbc/channel_rbc_news_posts.csv')\n",
+        "data[\"message_dt\"] = pd.to_datetime(data[\"message_dt\"])\n",
+        "data = data.sort_values(\"message_dt\")\n",
+        "\n",
+        "print(f\"Загружено {len(data)} постов\")\n",
+        "print(f\"Период: {data['message_dt'].min()} - {data['message_dt'].max()}\")\n",
+        "data.head()\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# Обработка выборки постов\n",
+        "SAMPLE_SIZE = 10\n",
+        "\n",
+        "sample_data = data.sample(n=min(SAMPLE_SIZE, len(data)), random_state=42)\n",
+        "sample_texts = sample_data[\"content\"].dropna().tolist()\n",
+        "\n",
+        "print(f\"Обрабатываем {len(sample_texts)} постов...\")\n",
+        "\n",
+        "sample_results = pipeline.process_batch(sample_texts)\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# Анализ результатов\n",
+        "df_sample_results = results_to_dataframe(sample_results)\n",
+        "\n",
+        "if len(df_sample_results) > 0:\n",
+        "    print(\"\\n📊 СТАТИСТИКА КЛАССИФИКАЦИИ:\")\n",
+        "    print(f\"   Однозначных постов: {df_sample_results['is_unambiguous'].sum()} ({df_sample_results['is_unambiguous'].mean():.0%})\")\n",
+        "    print(f\"   Неоднозначных постов: {(~df_sample_results['is_unambiguous']).sum()} ({(~df_sample_results['is_unambiguous']).mean():.0%})\")\n",
+        "\n",
+        "    print(\"\\n📈 РАСПРЕДЕЛЕНИЕ ПО СЛОЖНОСТИ:\")\n",
+        "    print(df_sample_results['search_difficulty'].value_counts())\n",
+        "\n",
+        "    print(\"\\n📂 РАСПРЕДЕЛЕНИЕ ПО КАТЕГОРИЯМ:\")\n",
+        "    print(df_sample_results['category'].value_counts())\n",
+        "else:\n",
+        "    print(\"Нет успешно обработанных результатов\")\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# Сохранение результатов\n",
+        "if len(df_sample_results) > 0:\n",
+        "    df_sample_results.to_csv('classification_results_langgraph.csv', index=False)\n",
+        "    print(\"✅ Результаты сохранены в classification_results_langgraph.csv\")\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Преимущества LangGraph\n",
+        "\n",
+        "**LangGraph** предоставляет ряд преимуществ по сравнению с обычными цепочками LangChain:\n",
+        "\n",
+        "1. **Явное управление состоянием** - `GraphState` определяет схему данных, передаваемых между узлами\n",
+        "2. **Потоковая обработка (Streaming)** - возможность отслеживать промежуточные результаты через `graph.stream()`\n",
+        "3. **Визуализация** - граф можно визуализировать для понимания потока данных\n",
+        "4. **Условные переходы** - можно добавить условную логику для разветвления графа\n",
+        "5. **Циклы** - поддержка циклических графов для итеративных агентов\n",
+        "6. **Checkpointing** - сохранение состояния для возобновления обработки\n",
+        "\n",
+        "### Структура графа\n",
+        "\n",
+        "```\n",
+        "[START] → extraction → classification → [END]\n",
+        "```\n",
+        "\n",
+        "- **extraction**: Извлекает основную мысль из текста\n",
+        "- **classification**: Классифицирует контент по однозначности для поиска\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": []
+    }
+  ],
+  "metadata": {
+    "language_info": {
+      "name": "python"
+    }
+  },
+  "nbformat": 4,
+  "nbformat_minor": 2
+}

news_classification_pipeline.ipynb ADDED Viewed

The diff for this file is too large to render. See raw diff

qa_evaluation_example.ipynb ADDED Viewed

	@@ -0,0 +1,465 @@

+{
+  "cells": [
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [
+        {
+          "name": "stdout",
+          "output_type": "stream",
+          "text": [
+            "Загружено 167 записей\n"
+          ]
+        },
+        {
+          "data": {
+            "text/html": [
+              "<div>\n",
+              "<style scoped>\n",
+              "    .dataframe tbody tr th:only-of-type {\n",
+              "        vertical-align: middle;\n",
+              "    }\n",
+              "\n",
+              "    .dataframe tbody tr th {\n",
+              "        vertical-align: top;\n",
+              "    }\n",
+              "\n",
+              "    .dataframe thead th {\n",
+              "        text-align: right;\n",
+              "    }\n",
+              "</style>\n",
+              "<table border=\"1\" class=\"dataframe\">\n",
+              "  <thead>\n",
+              "    <tr style=\"text-align: right;\">\n",
+              "      <th></th>\n",
+              "      <th>message_id</th>\n",
+              "      <th>original_text</th>\n",
+              "      <th>strict_question</th>\n",
+              "      <th>real_question</th>\n",
+              "    </tr>\n",
+              "  </thead>\n",
+              "  <tbody>\n",
+              "    <tr>\n",
+              "      <th>0</th>\n",
+              "      <td>130738</td>\n",
+              "      <td>Итальянский суд принял решение экстрадировать ...</td>\n",
+              "      <td>Какое решение приняло итальянское судопроизвод...</td>\n",
+              "      <td>Что там с Кузнецовым — его в Германию выдадут ...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>1</th>\n",
+              "      <td>129361</td>\n",
+              "      <td>Пять пассажиров автобуса №793 пострадали в ДТП...</td>\n",
+              "      <td>Сколько пассажиров автобуса №793 пострадали в ...</td>\n",
+              "      <td>Сколько человек в автобусе 793 пострадали, ког...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>2</th>\n",
+              "      <td>133468</td>\n",
+              "      <td>Владимир Путин утвердил концепцию государствен...</td>\n",
+              "      <td>Кто утвердил концепцию государственной миграци...</td>\n",
+              "      <td>Кто там утвердил новую миграционную концепцию ...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>3</th>\n",
+              "      <td>123139</td>\n",
+              "      <td>Генпрокуратура и Минюст подали в Верховный суд...</td>\n",
+              "      <td>Какое юридическое действие предприняли Генерал...</td>\n",
+              "      <td>Что Генпрокуратура и Минюст сделали с сатанист...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>4</th>\n",
+              "      <td>129894</td>\n",
+              "      <td>Обломки дрона обнаружили польские пограничники...</td>\n",
+              "      <td>Где и кем был обнаружен непилотируемый летател...</td>\n",
+              "      <td>Что там польские пограничники нашли рядом с Бе...</td>\n",
+              "    </tr>\n",
+              "  </tbody>\n",
+              "</table>\n",
+              "</div>"
+            ],
+            "text/plain": [
+              "   message_id                                      original_text  \\\n",
+              "0      130738  Итальянский суд принял решение экстрадировать ...   \n",
+              "1      129361  Пять пассажиров автобуса №793 пострадали в ДТП...   \n",
+              "2      133468  Владимир Путин утвердил концепцию государствен...   \n",
+              "3      123139  Генпрокуратура и Минюст подали в Верховный суд...   \n",
+              "4      129894  Обломки дрона обнаружили польские пограничники...   \n",
+              "\n",
+              "                                     strict_question  \\\n",
+              "0  Какое решение приняло итальянское судопроизвод...   \n",
+              "1  Сколько пассажиров автобуса №793 пострадали в ...   \n",
+              "2  Кто утвердил концепцию государственной миграци...   \n",
+              "3  Какое юридическое действие предприняли Генерал...   \n",
+              "4  Где и кем был обнаружен непилотируемый летател...   \n",
+              "\n",
+              "                                       real_question  \n",
+              "0  Что там с Кузнецовым — его в Германию выдадут ...  \n",
+              "1  Сколько человек в автобусе 793 пострадали, ког...  \n",
+              "2  Кто там утвердил новую миграционную концепцию ...  \n",
+              "3  Что Генпрокуратура и Минюст сделали с сатанист...  \n",
+              "4  Что там польские пограничники нашли рядом с Бе...  "
+            ]
+          },
+          "execution_count": 5,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
+      "source": [
+        "from src.evaluation import QAEvaluator\n",
+        "from dotenv import load_dotenv\n",
+        "import pandas as pd\n",
+        "import os\n",
+        "\n",
+        "load_dotenv()\n",
+        "\n",
+        "qa_df = pd.read_csv(\"generated_qa.csv\")\n",
+        "\n",
+        "qa_df.head()"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "evaluator = QAEvaluator(\n",
+        "    df=qa_df,\n",
+        "    text_column=\"original_text\",\n",
+        "    temperature=0.0,\n",
+        "    api_key=os.getenv(\"OPENROUTER_API_KEY\")\n",
+        ")\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [
+        {
+          "name": "stdout",
+          "output_type": "stream",
+          "text": [
+            "Всего батчей: 34\n"
+          ]
+        }
+      ],
+      "source": [
+        "batch_size = 5\n",
+        "question_iterator = evaluator.get_questions(\n",
+        "    question_column=\"strict_question\",  # или \"real_question\"\n",
+        "    batch_size=batch_size\n",
+        ")\n",
+        "\n",
+        "print(f\"Всего батчей: {len(question_iterator)}\")"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Демонстрация оценки ответов\n",
+        "\n",
+        "Ниже показан пример оценки ответов от RAG системы.\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [
+        {
+          "name": "stdout",
+          "output_type": "stream",
+          "text": [
+            "Демо-вопросов: 5\n",
+            "Демо-ответов: 5\n"
+          ]
+        }
+      ],
+      "source": [
+        "N_DEMO = 5\n",
+        "\n",
+        "evaluator_demo = QAEvaluator(\n",
+        "    df=qa_df.head(N_DEMO),\n",
+        "    text_column=\"original_text\",\n",
+        "    api_key=os.getenv(\"OPENROUTER_API_KEY\")\n",
+        ")\n",
+        "\n",
+        "question_iterator = evaluator_demo.get_questions(\n",
+        "    question_column=\"strict_question\",\n",
+        "    batch_size=N_DEMO\n",
+        ")\n",
+        "\n",
+        "demo_questions = next(iter(question_iterator))\n",
+        "\n",
+        "demo_answers = qa_df[\"original_text\"].head(N_DEMO).tolist()\n",
+        "\n",
+        "print(f\"Демо-вопросов: {len(demo_questions)}\")\n",
+        "print(f\"Демо-ответов: {len(demo_answers)}\")"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [
+        {
+          "name": "stderr",
+          "output_type": "stream",
+          "text": [
+            "Оценка ответов: 100%|██████████| 5/5 [00:05<00:00,  1.07s/it]\n"
+          ]
+        }
+      ],
+      "source": [
+        "_ = evaluator_demo.get_questions(\n",
+        "    question_column=\"strict_question\",\n",
+        "    batch_size=N_DEMO\n",
+        ")\n",
+        "\n",
+        "metrics = evaluator_demo.evaluate_answers(demo_answers, show_progress=True)"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 13,
+      "metadata": {},
+      "outputs": [
+        {
+          "data": {
+            "text/plain": [
+              "['Итальянский суд принял решение экстрадировать в Германию задержанного по подозрению в подрыве «Северных потоков» Сергея Кузнецова, пишет Reuters.\\n\\n🐚 Следить за новостями РБК в Telegram',\n",
+              " 'Пять пассажиров автобуса №793 пострадали в ДТП с участием автомобиля, которое произошло на пересечении Мичуринского проспекта и проезда Олимпийской Деревни в Москве, сообщил «Мосгортранс». \\n\\nПо предварительной информации, водитель автомобиля внезапно перестроился в полосу движения автобуса, из-за чего произошло столкновение. Всем пострадавшим оказывается медицинская помощь.\\n\\n🐚  Другие видео этого дня — в телеграм-канале РБК',\n",
+              " 'Владимир Путин утвердил концепцию государственной миграционной политики России на 2026-2030 годы.\\n\\nРезультатом политики должно стать снижение числа нелегальных мигрантов и преступлений.\\n\\n🐚 Следить за новостями РБК в Telegram',\n",
+              " 'Генпрокуратура и Минюст подали в Верховный суд иск с требованием признать экстремистской организацией «Международное движение сатанизма» и запретить его деятельность на территории России, передает РАПСИ. \\n\\nДепутаты, военные, священники и общественники в России регулярно заявляют о необходимости бороться с «сатанизмом». Круглый стол на эту тему, например, проходил 8 апреля в Госдуме. Депутат от «Справедливой России — За правду» актер Николай Бурляев тогда рассказал, что в Госдуму поступают обращения граждан, которые обеспокоены деструктивными явлениями в книгах, фильмах, аниме, а также сообщениями о «сатанинских секс-оргиях» в Москве и других городах.\\n\\nФото: Getty',\n",
+              " 'Обломки дрона обнаружили польские пограничники в деревне возле границы с Белоруссией, сообщает Reuters.\\n\\n«Этот дрон рухнул у границы, примерно в 300 метрах от пограничного перехода, в деревне Полатыче. Дрон не вооружен, на корпусе имеются надписи на кириллице», — рассказала Агнешка Кепка из прокуратуры города Люблин на пресс-конференции.\\n\\nВоенные полицейские опрашивают свидетелей и проверяют видеозаписи, чтобы установить траекторию полета дрона, добавила она. Никто не пострадал, подчеркнули в полиции.\\n\\nФото: Kuba Stezycki / Reuters\\n\\n🐚 Следить за новостями РБК в Telegram']"
+            ]
+          },
+          "execution_count": 13,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
+      "source": [
+        "demo_answers"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 12,
+      "metadata": {},
+      "outputs": [
+        {
+          "data": {
+            "text/plain": [
+              "{'total_questions': 5,\n",
+              " 'valid_answers': 4,\n",
+              " 'invalid_answers': 1,\n",
+              " 'accuracy': 0.8,\n",
+              " 'avg_relevance': 0.9,\n",
+              " 'avg_completeness': 0.9,\n",
+              " 'avg_factual_accuracy': 1.0,\n",
+              " 'combined_score': 0.9333333333333332,\n",
+              " 'detailed_results': [{'index': 0,\n",
+              "   'question': 'Какое решение приняло итальянское судопроизводство в отношении экстрадиции Сергея Кузнецова в связи с подозрениями в причастности к подрыву газопроводов «Северные потоки»?',\n",
+              "   'answer': 'Итальянский суд принял решение экстрадировать в Германию задержанного по подозрению в подрыве «Северных потоков» Сергея Кузнецова, пишет Reuters.\\n\\n🐚 Следить за новостями РБК в Telegram',\n",
+              "   'is_valid': True,\n",
+              "   'relevance_score': 1.0,\n",
+              "   'completeness_score': 1.0,\n",
+              "   'factual_accuracy_score': 1.0},\n",
+              "  {'index': 1,\n",
+              "   'question': 'Сколько пассажиров автобуса №793 пострадали в дорожно-транспортном происшествии на пересечении Мичуринского проспекта и проезда Олимпийской Деревни в Москве, вызванном внезапным перестроением автомобиля?',\n",
+              "   'answer': 'Пять пассажиров автобуса №793 пострадали в ДТП с участием автомобиля, которое произошло на пересечении Мичуринского проспекта и проезда Олимпийской Деревни в Москве, сообщил «Мосгортранс». \\n\\nПо предварительной информации, водитель автомобиля внезапно перестроился в полосу движения автобуса, из-за чего произошло столкновение. Всем пострадавшим оказывается медицинская помощь.\\n\\n🐚  Другие видео этого дня — в телеграм-канале РБК',\n",
+              "   'is_valid': True,\n",
+              "   'relevance_score': 1.0,\n",
+              "   'completeness_score': 1.0,\n",
+              "   'factual_accuracy_score': 1.0},\n",
+              "  {'index': 2,\n",
+              "   'question': 'Кто утвердил концепцию государственной миграционной политики Российской Федерации на 2026–2030 годы с целью снижения числа нелегальных мигрантов и преступлений?',\n",
+              "   'answer': 'Владимир Путин утвердил концепцию государственной миграционной политики России на 2026-2030 годы.\\n\\nРезультатом политики должно стать снижение числа нелегальных мигрантов и преступлений.\\n\\n🐚 Следить за новостями РБК в Telegram',\n",
+              "   'is_valid': True,\n",
+              "   'relevance_score': 1.0,\n",
+              "   'completeness_score': 1.0,\n",
+              "   'factual_accuracy_score': 1.0},\n",
+              "  {'index': 3,\n",
+              "   'question': 'Какое юридическое действие предприняли Генеральная прокуратура Российской Федерации и Министерство юстиции Российской Федерации в отношении «Международного движения сатанизма»?',\n",
+              "   'answer': 'Генпрокуратура и Минюст подали в Верховный суд иск с требованием признать экстремистской организацией «Международное движение сатанизма» и запретить его деятельность на территории России, передает РАПСИ. \\n\\nДепутаты, военные, священники и общественники в России регулярно заявляют о необходимости бороться с «сатанизмом». Круглый стол на эту тему, например, проходил 8 апреля в Госдуме. Депутат от «Справедливой России — За правду» актер Николай Бурляев тогда рассказал, что в Госдуму поступают обращения граждан, которые обеспокоены деструктивными явлениями в книгах, фильмах, аниме, а также сообщениями о «сатанинских секс-оргиях» в Москве и других городах.\\n\\nФото: Getty',\n",
+              "   'is_valid': False,\n",
+              "   'relevance_score': 0.5,\n",
+              "   'completeness_score': 0.5,\n",
+              "   'factual_accuracy_score': 1.0},\n",
+              "  {'index': 4,\n",
+              "   'question': 'Где и кем был обнаружен непилотируемый летательный аппарат без вооружения с надписями на кириллице, и в каком именно месте произошло это событие?',\n",
+              "   'answer': 'Обломки дрона обнаружили польские пограничники в деревне возле границы с Белоруссией, сообщает Reuters.\\n\\n«Этот др��н рухнул у границы, примерно в 300 метрах от пограничного перехода, в деревне Полатыче. Дрон не вооружен, на корпусе имеются надписи на кириллице», — рассказала Агнешка Кепка из прокуратуры города Люблин на пресс-конференции.\\n\\nВоенные полицейские опрашивают свидетелей и проверяют видеозаписи, чтобы установить траекторию полета дрона, добавила она. Никто не пострадал, подчеркнули в полиции.\\n\\nФото: Kuba Stezycki / Reuters\\n\\n🐚 Следить за новостями РБК в Telegram',\n",
+              "   'is_valid': True,\n",
+              "   'relevance_score': 1.0,\n",
+              "   'completeness_score': 1.0,\n",
+              "   'factual_accuracy_score': 1.0}]}"
+            ]
+          },
+          "execution_count": 12,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
+      "source": [
+        "metrics"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [
+        {
+          "data": {
+            "text/html": [
+              "<div>\n",
+              "<style scoped>\n",
+              "    .dataframe tbody tr th:only-of-type {\n",
+              "        vertical-align: middle;\n",
+              "    }\n",
+              "\n",
+              "    .dataframe tbody tr th {\n",
+              "        vertical-align: top;\n",
+              "    }\n",
+              "\n",
+              "    .dataframe thead th {\n",
+              "        text-align: right;\n",
+              "    }\n",
+              "</style>\n",
+              "<table border=\"1\" class=\"dataframe\">\n",
+              "  <thead>\n",
+              "    <tr style=\"text-align: right;\">\n",
+              "      <th></th>\n",
+              "      <th>index</th>\n",
+              "      <th>question</th>\n",
+              "      <th>answer</th>\n",
+              "      <th>is_valid</th>\n",
+              "      <th>relevance_score</th>\n",
+              "      <th>completeness_score</th>\n",
+              "      <th>factual_accuracy_score</th>\n",
+              "    </tr>\n",
+              "  </thead>\n",
+              "  <tbody>\n",
+              "    <tr>\n",
+              "      <th>0</th>\n",
+              "      <td>0</td>\n",
+              "      <td>Какое решение приняло итальянское судопроизвод...</td>\n",
+              "      <td>Итальянский суд принял решение экстрадировать ...</td>\n",
+              "      <td>True</td>\n",
+              "      <td>1.0</td>\n",
+              "      <td>1.0</td>\n",
+              "      <td>1.0</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>1</th>\n",
+              "      <td>1</td>\n",
+              "      <td>Сколько пассажиров автобуса №793 пострадали в ...</td>\n",
+              "      <td>Пять пассажиров автобуса №793 пострадали в ДТП...</td>\n",
+              "      <td>True</td>\n",
+              "      <td>1.0</td>\n",
+              "      <td>1.0</td>\n",
+              "      <td>1.0</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>2</th>\n",
+              "      <td>2</td>\n",
+              "      <td>Кто утвердил концепцию государственной миграци...</td>\n",
+              "      <td>Владимир Путин утвердил концепцию государствен...</td>\n",
+              "      <td>True</td>\n",
+              "      <td>1.0</td>\n",
+              "      <td>1.0</td>\n",
+              "      <td>1.0</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>3</th>\n",
+              "      <td>3</td>\n",
+              "      <td>Какое юридическое действие предприняли Генерал...</td>\n",
+              "      <td>Генпрокуратура и Минюст подали в Верховный суд...</td>\n",
+              "      <td>False</td>\n",
+              "      <td>0.5</td>\n",
+              "      <td>0.5</td>\n",
+              "      <td>1.0</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>4</th>\n",
+              "      <td>4</td>\n",
+              "      <td>Где и кем был обнаружен непилотируемый летател...</td>\n",
+              "      <td>Обломки дрона обнаружили польские пограничники...</td>\n",
+              "      <td>True</td>\n",
+              "      <td>1.0</td>\n",
+              "      <td>1.0</td>\n",
+              "      <td>1.0</td>\n",
+              "    </tr>\n",
+              "  </tbody>\n",
+              "</table>\n",
+              "</div>"
+            ],
+            "text/plain": [
+              "   index                                           question  \\\n",
+              "0      0  Какое решение приняло итальянское судопроизвод...   \n",
+              "1      1  Сколько пассажиров автобуса №793 пострадали в ...   \n",
+              "2      2  Кто утвердил концепцию государственной миграци...   \n",
+              "3      3  Какое юридическое действие предприняли Генерал...   \n",
+              "4      4  Где и кем был обнаружен непилотируемый летател...   \n",
+              "\n",
+              "                                              answer  is_valid  \\\n",
+              "0  Итальянский суд принял решение экстрадировать ...      True   \n",
+              "1  Пять пассажиров автобуса №793 пострадали в ДТП...      True   \n",
+              "2  Владимир Путин утвердил концепцию государствен...      True   \n",
+              "3  Генпрокуратура и Минюст подали в Верховный суд...     False   \n",
+              "4  Обломки дрона обнаружили польские пограничники...      True   \n",
+              "\n",
+              "   relevance_score  completeness_score  factual_accuracy_score  \n",
+              "0              1.0                 1.0                     1.0  \n",
+              "1              1.0                 1.0                     1.0  \n",
+              "2              1.0                 1.0                     1.0  \n",
+              "3              0.5                 0.5                     1.0  \n",
+              "4              1.0                 1.0                     1.0  "
+            ]
+          },
+          "execution_count": 14,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
+      "source": [
+        "results_df = evaluator_demo.get_detailed_results_df(metrics)\n",
+        "results_df"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": []
+    }
+  ],
+  "metadata": {
+    "kernelspec": {
+      "display_name": "venv",
+      "language": "python",
+      "name": "python3"
+    },
+    "language_info": {
+      "codemirror_mode": {
+        "name": "ipython",
+        "version": 3
+      },
+      "file_extension": ".py",
+      "mimetype": "text/x-python",
+      "name": "python",
+      "nbconvert_exporter": "python",
+      "pygments_lexer": "ipython3",
+      "version": "3.13.3"
+    }
+  },
+  "nbformat": 4,
+  "nbformat_minor": 2
+}

question_generation.ipynb ADDED Viewed

	@@ -0,0 +1,591 @@

+{
+  "cells": [
+    {
+      "cell_type": "code",
+      "execution_count": 54,
+      "metadata": {},
+      "outputs": [
+        {
+          "name": "stdout",
+          "output_type": "stream",
+          "text": [
+            "✅ API ключ загружен\n"
+          ]
+        }
+      ],
+      "source": [
+        "import os\n",
+        "from typing import Literal, Optional\n",
+        "from dotenv import load_dotenv\n",
+        "from pydantic import BaseModel, Field\n",
+        "from langchain_openai import ChatOpenAI\n",
+        "from langchain_core.prompts import ChatPromptTemplate\n",
+        "from langchain_core.output_parsers import PydanticOutputParser\n",
+        "import pandas as pd\n",
+        "from tqdm import tqdm\n",
+        "\n",
+        "load_dotenv()\n",
+        "\n",
+        "OPENROUTER_API_KEY = os.getenv(\"OPENROUTER_API_KEY\")\n",
+        "if not OPENROUTER_API_KEY:\n",
+        "    raise ValueError(\"Не найден OPENROUTER_API_KEY в переменных окружения\")\n",
+        "\n",
+        "print(\"✅ API ключ загружен\")\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Загрузка и фильтрация результатов классификации\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 80,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "df = pd.read_csv(\"classification_results.csv\")\n",
+        "filtered_df = df.loc[df[\"is_unambiguous\"] & df[\"category\"].isin([\"event\", \"statement\", \"fact\"])]"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Генерация вопросов с помощью LangChain\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 81,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# Шаг 1: Модель для извлечения ответа\n",
+        "class ExtractedAnswer(BaseModel):\n",
+        "    \"\"\"Извлечённый ответ из main_fact\"\"\"\n",
+        "    \n",
+        "    answer: str = Field(\n",
+        "        description=\"Краткий, конкретный ответ, который можно дать на вопрос о main_fact\"\n",
+        "    )\n",
+        "    answer_type: Literal[\"entity\", \"number\", \"date\", \"action\", \"description\"] = Field(\n",
+        "        description=\"Тип ответа: entity - сущность/название, number - число, date - дата, action - действие, description - описание\"\n",
+        "    )\n",
+        "    key_info: str = Field(\n",
+        "        description=\"Ключевая информация, которая ОБЯЗАТЕЛЬНО должна присутствовать в любом корректном ответе\"\n",
+        "    )\n",
+        "\n",
+        "\n",
+        "# Шаг 2: Модель для генерации вопросов к ответу\n",
+        "class QuestionPair(BaseModel):\n",
+        "    \"\"\"Пара вопросов с одинаковым ответом\"\"\"\n",
+        "    \n",
+        "    strict_question: str = Field(\n",
+        "        description=\"Формальный, точный вопрос. Конкретный и однозначный.\"\n",
+        "    )\n",
+        "    real_question: str = Field(\n",
+        "        description=\"Разговорная, человечная формулировка того же вопроса. Как бы спросил обычный человек.\"\n",
+        "    )\n",
+        "    question_type: Literal[\"what\", \"when\", \"where\", \"who\", \"how_much\", \"how_many\", \"why\", \"how\"] = Field(\n",
+        "        description=\"Тип вопроса\"\n",
+        "    )\n",
+        "\n",
+        "\n",
+        "class QAResult(BaseModel):\n",
+        "    \"\"\"Финальный результат: ответ + 2 вопроса\"\"\"\n",
+        "    \n",
+        "    answer: ExtractedAnswer\n",
+        "    questions: QuestionPair\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 62,
+      "metadata": {},
+      "outputs": [
+        {
+          "name": "stdout",
+          "output_type": "stream",
+          "text": [
+            "✅ Двухшаговый агент создан (модель: qwen/qwen3-next-80b-a3b-instruct)\n"
+          ]
+        }
+      ],
+      "source": [
+        "def create_llm(model: str = \"openai/gpt-4o-mini\", temperature: float = 0.0) -> ChatOpenAI:\n",
+        "    \"\"\"Создает экземпляр LLM через OpenRouter\"\"\"\n",
+        "    return ChatOpenAI(\n",
+        "        model=model,\n",
+        "        temperature=temperature,\n",
+        "        openai_api_key=OPENROUTER_API_KEY,\n",
+        "        openai_api_base=\"https://api.proxyapi.ru/openrouter/v1\",\n",
+        "    )\n",
+        "\n",
+        "MODEL_NAME = \"qwen/qwen3-next-80b-a3b-instruct\"\n",
+        "llm = create_llm(model=MODEL_NAME, temperature=0.3)\n",
+        "\n",
+        "# === ШАГ 1: Извлечение ответа ===\n",
+        "answer_parser = PydanticOutputParser(pydantic_object=ExtractedAnswer)\n",
+        "\n",
+        "answer_prompt = ChatPromptTemplate.from_messages([\n",
+        "    (\"system\", \"\"\"Ты - эксперт по извлечению ключевой информации из новостных текстов.\n",
+        "\n",
+        "Твоя задача - извлечь КРАТКИЙ ОТВЕТ из main_fact. Этот ответ будет использоваться как эталонный ответ на вопросы.\n",
+        "\n",
+        "## Правила:\n",
+        "1. Ответ должен быть КРАТКИМ и КОНКРЕТНЫМ (1-2 предложения максимум)\n",
+        "2. Ответ должен содержать ГЛАВНУЮ информацию из main_fact\n",
+        "3. Определи тип ответа: сущность, число, дата, действие или описание\n",
+        "4. Выдели key_info - минимальную информацию, без которой ответ будет неполным\n",
+        "\n",
+        "{format_instructions}\"\"\"),\n",
+        "    (\"human\", \"\"\"Извлеки ответ из следующего факта:\n",
+        "\n",
+        "## main_fact: {main_fact}\"\"\")\n",
+        "])\n",
+        "\n",
+        "answer_chain = answer_prompt | llm | answer_parser\n",
+        "\n",
+        "# === ШАГ 2: Генерация вопросов к ответу ===\n",
+        "question_parser = PydanticOutputParser(pydantic_object=QuestionPair)\n",
+        "\n",
+        "question_prompt = ChatPromptTemplate.from_messages([\n",
+        "    (\"system\", \"\"\"Ты - эксперт по созданию вопросов для систем вопрос-ответ (QA).\n",
+        "\n",
+        "Тебе дан ОТВЕТ. Твоя задача - сгенерировать 2 ВОПРОСА, на которые этот ответ будет ЕДИНСТВЕННО ВЕРНЫМ.\n",
+        "\n",
+        "## КРИТИЧЕСКИ ВАЖНО:\n",
+        "- Оба вопроса ДОЛЖНЫ иметь ОДИНАКОВЫЙ ответ = \"{answer}\"\n",
+        "- Вопросы отличаются ТОЛЬКО стилем формулировки, НЕ содержанием\n",
+        "\n",
+        "## strict_question (формальный):\n",
+        "- Точная, академическая формулировка\n",
+        "- Использует полные названия и термины\n",
+        "- Пример: \"Какое решение принял Центральный банк РФ относительно ключевой ставки?\"\n",
+        "\n",
+        "## real_question (разговорный):\n",
+        "- Как спросил бы обычный человек в разговоре\n",
+        "- Может опускать детали, которые понятны из контекста\n",
+        "- Пример: \"Что там ЦБ со ставкой сделал?\"\n",
+        "\n",
+        "{format_instructions}\"\"\"),\n",
+        "    (\"human\", \"\"\"Сгенерируй 2 вопроса для следующего:\n",
+        "\n",
+        "## ОТВЕТ (должен быть одинаковым для обоих вопросов): {answer}\n",
+        "## Ключевая информация: {key_info}\n",
+        "## Контекст (main_fact): {main_fact}\n",
+        "\n",
+        "Помни: оба вопроса должны подразумевать ОДИН И ТОТ ЖЕ ответ!\"\"\")\n",
+        "])\n",
+        "\n",
+        "question_chain = question_prompt | llm | question_parser\n",
+        "\n",
+        "print(f\"✅ Двухшаговый агент создан (модель: {MODEL_NAME})\")\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 63,
+      "metadata": {},
+      "outputs": [
+        {
+          "name": "stdout",
+          "output_type": "stream",
+          "text": [
+            "✅ QA-агент создан\n"
+          ]
+        }
+      ],
+      "source": [
+        "class QAAgent:\n",
+        "    \"\"\"Двухшаговый агент: сначала ответ, потом вопросы\"\"\"\n",
+        "    \n",
+        "    def __init__(self):\n",
+        "        self.answer_chain = answer_chain\n",
+        "        self.question_chain = question_chain\n",
+        "        self.answer_parser = answer_parser\n",
+        "        self.question_parser = question_parser\n",
+        "    \n",
+        "    def generate(self, row: pd.Series) -> Optional[QAResult]:\n",
+        "        \"\"\"Генерирует ответ и вопросы для одной записи\"\"\"\n",
+        "        main_fact = row.get(\"main_fact\", \"\")\n",
+        "        \n",
+        "        # Шаг 1: Извлекаем ответ\n",
+        "        try:\n",
+        "            answer_result = self.answer_chain.invoke({\n",
+        "                \"main_fact\": main_fact,\n",
+        "                \"format_instructions\": self.answer_parser.get_format_instructions()\n",
+        "            })\n",
+        "        except Exception as e:\n",
+        "            print(f\"Ошибка извлечения ответа: {e}\")\n",
+        "            return None\n",
+        "        \n",
+        "        # Шаг 2: Генерируем вопросы к этому ответу\n",
+        "        try:\n",
+        "            questions_result = self.question_chain.invoke({\n",
+        "                \"answer\": answer_result.answer,\n",
+        "                \"key_info\": answer_result.key_info,\n",
+        "                \"main_fact\": main_fact,\n",
+        "                \"format_instructions\": self.question_parser.get_format_instructions()\n",
+        "            })\n",
+        "        except Exception as e:\n",
+        "            print(f\"Ошибка генерации вопросов: {e}\")\n",
+        "            return None\n",
+        "        \n",
+        "        return QAResult(answer=answer_result, questions=questions_result)\n",
+        "    \n",
+        "    def generate_batch(self, df: pd.DataFrame, show_progress: bool = True) -> list[dict]:\n",
+        "        \"\"\"Генерирует QA-пары для всего DataFrame\"\"\"\n",
+        "        results = []\n",
+        "        iterator = tqdm(df.iterrows(), total=len(df), desc=\"Генерация QA\") if show_progress else df.iterrows()\n",
+        "        \n",
+        "        for idx, row in iterator:\n",
+        "            try:\n",
+        "                qa_result = self.generate(row)\n",
+        "            except KeyboardInterrupt:\n",
+        "                break\n",
+        "            \n",
+        "            if qa_result:\n",
+        "                results.append({\n",
+        "                    \"index\": idx,\n",
+        "                    \"original_text\": row.get(\"original_text\", \"\"),\n",
+        "                    \"main_topic\": row.get(\"main_topic\", \"\"),\n",
+        "                    \"main_fact\": row.get(\"main_fact\", \"\"),\n",
+        "                    \"answer\": qa_result.answer.answer,\n",
+        "                    \"answer_type\": qa_result.answer.answer_type,\n",
+        "                    \"key_info\": qa_result.answer.key_info,\n",
+        "                    \"strict_question\": qa_result.questions.strict_question,\n",
+        "                    \"real_question\": qa_result.questions.real_question,\n",
+        "                    \"question_type\": qa_result.questions.question_type,\n",
+        "                })\n",
+        "            else:\n",
+        "                results.append({\n",
+        "                    \"index\": idx,\n",
+        "                    \"original_text\": row.get(\"original_text\", \"\"),\n",
+        "                    \"main_topic\": row.get(\"main_topic\", \"\"),\n",
+        "                    \"main_fact\": row.get(\"main_fact\", \"\"),\n",
+        "                    \"answer\": None,\n",
+        "                    \"answer_type\": None,\n",
+        "                    \"key_info\": None,\n",
+        "                    \"strict_question\": None,\n",
+        "                    \"real_question\": None,\n",
+        "                    \"question_type\": None,\n",
+        "                })\n",
+        "        \n",
+        "        return results\n",
+        "\n",
+        "\n",
+        "# Создаем агента\n",
+        "agent = QAAgent()\n",
+        "print(\"✅ QA-агент создан\")\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Генерация вопросов для отфильтрованных данных\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 64,
+      "metadata": {},
+      "outputs": [
+        {
+          "name": "stderr",
+          "output_type": "stream",
+          "text": [
+            "Генерация QA: 100%|██████████| 167/167 [09:09<00:00,  3.29s/it]"
+          ]
+        },
+        {
+          "name": "stdout",
+          "output_type": "stream",
+          "text": [
+            "\n",
+            "✅ Сгенерировано QA-пар: 167/167\n"
+          ]
+        },
+        {
+          "name": "stderr",
+          "output_type": "stream",
+          "text": [
+            "\n"
+          ]
+        }
+      ],
+      "source": [
+        "# Генерация QA-пар для отфильтрованных данных\n",
+        "qa_results = agent.generate_batch(filtered_df)\n",
+        "\n",
+        "print(f\"\\n✅ Сгенерировано QA-пар: {sum(1 for r in qa_results if r['answer'])}/{len(qa_results)}\")\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 85,
+      "metadata": {},
+      "outputs": [
+        {
+          "data": {
+            "text/plain": [
+              "message_id                                                      130738\n",
+              "original_text        Итальянский суд принял решение экстрадировать ...\n",
+              "main_topic           Экстрадиция Сергея Кузнецова в Германию по под...\n",
+              "key_entities         Итальянский суд, Германия, Сергей Кузнецов, Се...\n",
+              "main_fact            Итальянский суд принял решение экстрадировать ...\n",
+              "is_unambiguous                                                    True\n",
+              "confidence                                                        0.95\n",
+              "category                                                         event\n",
+              "search_difficulty                                                 easy\n",
+              "ambiguity_reasons                                                  NaN\n",
+              "Name: 6, dtype: object"
+            ]
+          },
+          "execution_count": 85,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
+      "source": [
+        "filtered_df.iloc[0]"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 84,
+      "metadata": {},
+      "outputs": [
+        {
+          "data": {
+            "text/plain": [
+              "{'index': 6,\n",
+              " 'original_text': 'Итальянский суд принял решение экстрадировать в Германию задержанного по подозрению в подрыве «Северных потоков» Сергея Кузнецова, пишет Reuters.\\n\\n🐚 Следить за новостями РБК в Telegram',\n",
+              " 'main_topic': 'Экстрадиция Сергея Кузнецова в Германию по подозрению в подрыве «Северных потоков»',\n",
+              " 'main_fact': 'Итальянский суд принял решение экстрадировать Сергея Кузнецова в Германию, где его подозревают в подрыве газопроводов «Северные потоки».',\n",
+              " 'answer': 'Итальянский суд решил экстрадировать Сергея Кузнецова в Германию, где его подозревают в подрыве газопроводов «Северные потоки».',\n",
+              " 'answer_type': 'action',\n",
+              " 'key_info': 'экстрадировать Сергея Кузнецова в Германию из-за подозрения в подрыве газопроводов «Северные потоки»',\n",
+              " 'strict_question': 'Какое решение приняло итальянское судопроизводство в отношении экстрадиции Сергея Кузнецова в связи с подозрениями в причастности к подрыву газопроводов «Северные потоки»?',\n",
+              " 'real_question': 'Что там с Кузнецовым — его в Германию выдадут за подрыв «Северных потоков»?',\n",
+              " 'question_type': 'what'}"
+            ]
+          },
+          "execution_count": 84,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
+      "source": [
+        "qa_results[0]"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 93,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# Преобразование в DataFrame и сохранение\n",
+        "qa_df = pd.DataFrame(qa_results)\n",
+        "qa_df[\"message_id\"] = filtered_df[\"message_id\"].values\n",
+        "qa_df = qa_df[[\"message_id\", \"original_text\", \"strict_question\", \"real_question\"]]\n",
+        "\n",
+        "# Сохраняем в CSV\n",
+        "output_file = \"generated_qa.csv\"\n",
+        "qa_df.to_csv(output_file, index=False)"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 94,
+      "metadata": {},
+      "outputs": [
+        {
+          "data": {
+            "text/html": [
+              "<div>\n",
+              "<style scoped>\n",
+              "    .dataframe tbody tr th:only-of-type {\n",
+              "        vertical-align: middle;\n",
+              "    }\n",
+              "\n",
+              "    .dataframe tbody tr th {\n",
+              "        vertical-align: top;\n",
+              "    }\n",
+              "\n",
+              "    .dataframe thead th {\n",
+              "        text-align: right;\n",
+              "    }\n",
+              "</style>\n",
+              "<table border=\"1\" class=\"dataframe\">\n",
+              "  <thead>\n",
+              "    <tr style=\"text-align: right;\">\n",
+              "      <th></th>\n",
+              "      <th>message_id</th>\n",
+              "      <th>original_text</th>\n",
+              "      <th>strict_question</th>\n",
+              "      <th>real_question</th>\n",
+              "    </tr>\n",
+              "  </thead>\n",
+              "  <tbody>\n",
+              "    <tr>\n",
+              "      <th>0</th>\n",
+              "      <td>130738</td>\n",
+              "      <td>Итальянский суд принял решение экстрадировать ...</td>\n",
+              "      <td>Какое решение приняло итальянское судопроизвод...</td>\n",
+              "      <td>Что там с Кузнецовым — его в Германию выдадут ...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>1</th>\n",
+              "      <td>129361</td>\n",
+              "      <td>Пять пассажиров автобуса №793 пострадали в ДТП...</td>\n",
+              "      <td>Сколько пассажиров автобуса №793 пострадали в ...</td>\n",
+              "      <td>Сколько человек в автобусе 793 пострадали, ког...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>2</th>\n",
+              "      <td>133468</td>\n",
+              "      <td>Владимир Путин утвердил концепцию государствен...</td>\n",
+              "      <td>Кто утвердил концепцию государственной миграци...</td>\n",
+              "      <td>Кто там утвердил новую миграционную концепцию ...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>3</th>\n",
+              "      <td>123139</td>\n",
+              "      <td>Генпрокуратура и Минюст подали в Верховный суд...</td>\n",
+              "      <td>Какое юридическое действие предприняли Генерал...</td>\n",
+              "      <td>Что Генпрокуратура и Минюст сделали с сатанист...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>4</th>\n",
+              "      <td>129894</td>\n",
+              "      <td>Обломки дрона обнаружили польские пограничники...</td>\n",
+              "      <td>Где и кем был обнаружен непилотируемый летател...</td>\n",
+              "      <td>Что там польские пограничники нашли рядом с Бе...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>...</th>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>162</th>\n",
+              "      <td>123802</td>\n",
+              "      <td>Мальчика, которого в Шереметьево мужчина удари...</td>\n",
+              "      <td>Каков исход медицинского случая двухлетнего ма...</td>\n",
+              "      <td>Что случилось с мальчиком, которого бросили в ...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>163</th>\n",
+              "      <td>124166</td>\n",
+              "      <td>Почти все виды американского оружия, которые с...</td>\n",
+              "      <td>Каков текущий статус американского оружия, зап...</td>\n",
+              "      <td>Уже есть всё это оружие для Украины, что НАТО ...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>164</th>\n",
+              "      <td>136058</td>\n",
+              "      <td>По планам Банка России, массовое внедрение циф...</td>\n",
+              "      <td>Когда начнется массовое внедрение цифрового ру...</td>\n",
+              "      <td>Когда начнут все пользоваться цифровым рублем,...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>165</th>\n",
+              "      <td>134555</td>\n",
+              "      <td>В Турции в Гебзе обрушился многоэтажный дом. П...</td>\n",
+              "      <td>В каком городе Турции обрушился семиэтажный до...</td>\n",
+              "      <td>Что там в Гебзе с домом обрушился? Пять челове...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>166</th>\n",
+              "      <td>123088</td>\n",
+              "      <td>Современный городской квартал сегодня уже дале...</td>\n",
+              "      <td>Какой девелопер осуществляет строительство жил...</td>\n",
+              "      <td>Кто строит тот самый квартал Soul рядом с метр...</td>\n",
+              "    </tr>\n",
+              "  </tbody>\n",
+              "</table>\n",
+              "<p>167 rows × 4 columns</p>\n",
+              "</div>"
+            ],
+            "text/plain": [
+              "     message_id                                      original_text  \\\n",
+              "0        130738  Итальянский суд принял решение экстрадировать ...   \n",
+              "1        129361  Пять пассажиров автобуса №793 пострадали в ДТП...   \n",
+              "2        133468  Владимир Путин утвердил концепцию государствен...   \n",
+              "3        123139  Генпрокуратура и Минюст подали в Верховный суд...   \n",
+              "4        129894  Обломки дрона обнаружили польские пограничники...   \n",
+              "..          ...                                                ...   \n",
+              "162      123802  Мальчика, которого в Шереметьево мужчина удари...   \n",
+              "163      124166  Почти все виды американского оружия, которые с...   \n",
+              "164      136058  По планам Банка России, массовое внедрение циф...   \n",
+              "165      134555  В Турции в Гебзе обрушился многоэтажный дом. П...   \n",
+              "166      123088  Современный городской квартал сегодня уже дале...   \n",
+              "\n",
+              "                                       strict_question  \\\n",
+              "0    Какое решение приняло итальянское судопроизвод...   \n",
+              "1    Сколько пассажиров автобуса №793 пострадали в ...   \n",
+              "2    Кто утвердил концепцию государственной миграци...   \n",
+              "3    Какое юридическое действие предприняли Генерал...   \n",
+              "4    Где и кем был обнаружен непилотируемый летател...   \n",
+              "..                                                 ...   \n",
+              "162  Каков исход медицинского случая двухлетнего ма...   \n",
+              "163  Каков текущий статус американского оружия, зап...   \n",
+              "164  Когда начнется массовое внедрение цифрового ру...   \n",
+              "165  В каком городе Турции обрушился семиэтажный до...   \n",
+              "166  Какой девелопер осуществляет строительство жил...   \n",
+              "\n",
+              "                                         real_question  \n",
+              "0    Что там с Кузнецовым — его в Германию выдадут ...  \n",
+              "1    Сколько человек в автобусе 793 пострадали, ког...  \n",
+              "2    Кто там утвердил новую миграционную концепцию ...  \n",
+              "3    Что Генпрокуратура и Минюст сделали с сатанист...  \n",
+              "4    Что там польские пограничники нашли рядом с Бе...  \n",
+              "..                                                 ...  \n",
+              "162  Что случилось с мальчиком, которого бросили в ...  \n",
+              "163  Уже есть всё это оружие для Украины, что НАТО ...  \n",
+              "164  Когда начнут все пользоваться цифровым рублем,...  \n",
+              "165  Что ��ам в Гебзе с домом обрушился? Пять челове...  \n",
+              "166  Кто строит тот самый квартал Soul рядом с метр...  \n",
+              "\n",
+              "[167 rows x 4 columns]"
+            ]
+          },
+          "execution_count": 94,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
+      "source": [
+        "qa_df"
+      ]
+    }
+  ],
+  "metadata": {
+    "kernelspec": {
+      "display_name": "venv",
+      "language": "python",
+      "name": "python3"
+    },
+    "language_info": {
+      "codemirror_mode": {
+        "name": "ipython",
+        "version": 3
+      },
+      "file_extension": ".py",
+      "mimetype": "text/x-python",
+      "name": "python",
+      "nbconvert_exporter": "python",
+      "pygments_lexer": "ipython3",
+      "version": "3.13.3"
+    }
+  },
+  "nbformat": 4,
+  "nbformat_minor": 2
+}

requirements.txt CHANGED Viewed

@@ -1,3 +1,34 @@
-altair
-pandas
-streamlit

+pandas==2.3.3
+python-dotenv==1.2.1
+pyaes==1.6.1
+Pyrogram==2.0.106
+PySocks==1.7.1
+python-dateutil==2.9.0.post0
+pytz==2025.2
+six==1.17.0
+structlog==25.5.0
+TgCrypto==1.2.5
+typing_extensions==4.15.0
+tzdata==2025.2
+torch[cuda129]==2.9.1
+tokenizers==0.22.1
+transformers==4.57.3
+sentence-transformers==5.1.2
+nltk==3.9.2
+langchain==1.1.0
+langchain-core==1.1.0
+langchain_text_splitters==1.0.0
+langchain-experimental==0.4.0
+langchain_huggingface==1.1.0
+langchain_mistralai==1.1.1
+langchain-openai==1.0.0
+sqlalchemy==2.0.44
+psycopg2-binary==2.9.11
+qdrant-client==1.16.2
+fastapi==0.124.4
+uvicorn==0.38.0
+openai==1.109.1
+pydantic==2.9.2
+tenacity==9.0.0
+tqdm==4.67.1
+streamlit==1.40.2

root.crt ADDED Viewed

	@@ -0,0 +1,59 @@

+-----BEGIN CERTIFICATE-----
+MIIE3TCCAsWgAwIBAgIKPxb5sAAAAAAAFzANBgkqhkiG9w0BAQ0FADAfMR0wGwYD
+VQQDExRZYW5kZXhJbnRlcm5hbFJvb3RDQTAeFw0xNzA2MjAxNjQ0MzdaFw0yNzA2
+MjAxNjU0MzdaMFUxEjAQBgoJkiaJk/IsZAEZFgJydTEWMBQGCgmSJomT8ixkARkW
+BnlhbmRleDESMBAGCgmSJomT8ixkARkWAmxkMRMwEQYDVQQDEwpZYW5kZXhDTENB
+MIIBIjANBgkqhkiG9w0BAQEFAAOCAQ8AMIIBCgKCAQEAqgNnjk0JKPcbsk1+KG2t
+eM1AfMnEe5RkAJuBBuwVV49snhcvO1jhKBx/pCnjr6biICc1/oAFDVgU8yVYYPwp
+WZ2vH3ZtscjJ/RAT/NS9OKKG7kKknhFhVYxua5xhoIQmm6usBNYYiTcWoFm1eHC8
+I9oddOLSscZYbh3unVRvt+3V+drVmUx9oSUKpqMgfysiv1MN6zB3vq9TFkbhz53E
+k0tEcV+W2NnDaeFhLKy284FDKLvOdTDj1EDsSAihxl7sNEKpupNuhgyy2siOqUb+
+d5mO/CRfaAKGg3E6hDM3pEi48E506dJdjPXWfHKSvuguMLRlb2RWdVocRZuyWxOh
+0QIDAQABo4HkMIHhMBAGCSsGAQQBgjcVAQQDAgEAMB0GA1UdDgQWBBRMU5uItjx+
+TOicX1+ovC1Xq2PSnzAZBgkrBgEEAYI3FAIEDB4KAFMAdQBiAEMAQTALBgNVHQ8E
+BAMCAYYwDwYDVR0TAQH/BAUwAwEB/zAfBgNVHSMEGDAWgBSrucX/oe/mUx0zOSKE
+0XbUN04tajBUBgNVHR8ETTBLMEmgR6BFhkNodHRwOi8vY3Jscy55YW5kZXgucnUv
+WWFuZGV4SW50ZXJuYWxSb290Q0EvWWFuZGV4SW50ZXJuYWxSb290Q0EuY3JsMA0G
+CSqGSIb3DQEBDQUAA4ICAQAsR5Lb4Pv2FD0Kk+4oc1GEOnehxKLsQtdV81nrU+IV
+l9pr2oNMdi8lwIolvHZRllLM4Ba5AcRH6YJ5fe7AjKm+5EdSkhqVWo2UOllRCbtS
+wmL50+erOAkxstSlRkO6b8x1L0MOBKv54E5YcQ/Wwt27ldSb6RkEmJBGvmxObAaf
+5zc51pqSqao9tnldYaCblEQ/Zmy43FliIpa2eUJoh8DqK8bVo2gcI3wbQ32tWs9u
+wvKk8fo4lAdhCwhv+QHuqau1VAY9hPU106bsFIDUmijTMxjAobKBi6CkIX6EbNHU
+Jv4DzYVLlDd2y0CADdn2F6I70xpCBn5cquSGuvFbqZjQDmIHwb7WQSxadkiGRWfc
+zVTnmiHjJONJJIpE2t+FOV3hc+8o98OzOtNaH2QQ9j6dnKvtIGKGFeNSDp0vXPOi
+QhHiIyuB7eWx+g2whktQ74UCpGDSXYnEW3s8w5wezVWIEmouq7q4rCEkTNvJ7Ico
+43AgUdPzAFS2zYktw1C+cbUALM8smvXbXrXOBzMmscjIhtXvLMrpPeh23VfdJfQB
+0rN2BmRCLUE8JOV+o0k98XMm83oN+lGkL1l+hyoj3ok1uI3JrsWOcDyjOds3ptcN
+KimJLm27ndjcxDNo/iA6gefMJuCxFRaqI+eF4P0jSkMgnnQqZkvLGFuHCw8eRDhm
+bw==
+-----END CERTIFICATE-----
+-----BEGIN CERTIFICATE-----
+MIIFGTCCAwGgAwIBAgIQJMM7ZIy2SYxCBgK7WcFwnjANBgkqhkiG9w0BAQ0FADAf
+MR0wGwYDVQQDExRZYW5kZXhJbnRlcm5hbFJvb3RDQTAeFw0xMzAyMTExMzQxNDNa
+Fw0zMzAyMTExMzUxNDJaMB8xHTAbBgNVBAMTFFlhbmRleEludGVybmFsUm9vdENB
+MIICIjANBgkqhkiG9w0BAQEFAAOCAg8AMIICCgKCAgEAgb4xoQjBQ7oEFk8EHVGy
+1pDEmPWw0Wgw5nX9RM7LL2xQWyUuEq+Lf9Dgh+O725aZ9+SO2oEs47DHHt81/fne
+5N6xOftRrCpy8hGtUR/A3bvjnQgjs+zdXvcO9cTuuzzPTFSts/iZATZsAruiepMx
+SGj9S1fGwvYws/yiXWNoNBz4Tu1Tlp0g+5fp/ADjnxc6DqNk6w01mJRDbx+6rlBO
+aIH2tQmJXDVoFdrhmBK9qOfjxWlIYGy83TnrvdXwi5mKTMtpEREMgyNLX75UjpvO
+NkZgBvEXPQq+g91wBGsWIE2sYlguXiBniQgAJOyRuSdTxcJoG8tZkLDPRi5RouWY
+gxXr13edn1TRDGco2hkdtSUBlajBMSvAq+H0hkslzWD/R+BXkn9dh0/DFnxVt4XU
+5JbFyd/sKV/rF4Vygfw9ssh1ZIWdqkfZ2QXOZ2gH4AEeoN/9vEfUPwqPVzL0XEZK
+r4s2WjU9mE5tHrVsQOZ80wnvYHYi2JHbl0hr5ghs4RIyJwx6LEEnj2tzMFec4f7o
+dQeSsZpgRJmpvpAfRTxhIRjZBrKxnMytedAkUPguBQwjVCn7+EaKiJfpu42JG8Mm
++/dHi+Q9Tc+0tX5pKOIpQMlMxMHw8MfPmUjC3AAd9lsmCtuybYoeN2IRdbzzchJ8
+l1ZuoI3gH7pcIeElfVSqSBkCAwEAAaNRME8wCwYDVR0PBAQDAgGGMA8GA1UdEwEB
+/wQFMAMBAf8wHQYDVR0OBBYEFKu5xf+h7+ZTHTM5IoTRdtQ3Ti1qMBAGCSsGAQQB
+gjcVAQQDAgEAMA0GCSqGSIb3DQEBDQUAA4ICAQAVpyJ1qLjqRLC34F1UXkC3vxpO
+nV6WgzpzA+DUNog4Y6RhTnh0Bsir+I+FTl0zFCm7JpT/3NP9VjfEitMkHehmHhQK
+c7cIBZSF62K477OTvLz+9ku2O/bGTtYv9fAvR4BmzFfyPDoAKOjJSghD1p/7El+1
+eSjvcUBzLnBUtxO/iYXRNo7B3+1qo4F5Hz7rPRLI0UWW/0UAfVCO2fFtyF6C1iEY
+/q0Ldbf3YIaMkf2WgGhnX9yH/8OiIij2r0LVNHS811apyycjep8y/NkG4q1Z9jEi
+VEX3P6NEL8dWtXQlvlNGMcfDT3lmB+tS32CPEUwce/Ble646rukbERRwFfxXojpf
+C6ium+LtJc7qnK6ygnYF4D6mz4H+3WaxJd1S1hGQxOb/3WVw63tZFnN62F6/nc5g
+6T44Yb7ND6y3nVcygLpbQsws6HsjX65CoSjrrPn0YhKxNBscF7M7tLTW/5LK9uhk
+yjRCkJ0YagpeLxfV1l1ZJZaTPZvY9+ylHnWHhzlq0FzcrooSSsp4i44DB2K7O2ID
+87leymZkKUY6PMDa4GkDJx0dG4UXDhRETMf+NkYgtLJ+UIzMNskwVDcxO4kVL+Hi
+Pj78bnC5yCw8P5YylR45LdxLzLO68unoXOyFz1etGXzszw8lJI9LNubYxk77mK8H
+LpuQKbSbIERsmR+QqQ==
+-----END CERTIFICATE-----

server.py ADDED Viewed

	@@ -0,0 +1,194 @@

+from typing import Optional, List, Dict, Any
+from contextlib import asynccontextmanager
+from fastapi import FastAPI, HTTPException, Query
+from pydantic import BaseModel
+from src import RAG
+from src.db_utils.history_utils import (
+    init_history_table,
+    log_query,
+    get_all_history,
+    get_history_by_dialogue,
+    search_history,
+    get_history_stats,
+    delete_history,
+    get_recent_dialogues
+)
+# --- Lifespan для инициализации при старте ---
+@asynccontextmanager
+async def lifespan(app: FastAPI):
+    # Startup: инициализация таблицы истории
+    try:
+        init_history_table()
+    except Exception as e:
+        print(f"⚠️ Не удалось инициализировать таблицу истории: {e}")
+    yield
+    # Shutdown: ничего не делаем
+app = FastAPI(
+    title="RAG API",
+    version="1.0.0",
+    lifespan=lifespan,
+)
+# --- Инициализация RAG один раз при старте ---
+rag = RAG(
+    embed_model_name="deepvk/USER-bge-m3",
+    embed_index_name="recursive_USER-bge-m3",
+)
+# --- Request / Response схемы ---
+class QueryRequest(BaseModel):
+    query: str
+    dialogue_id: Optional[str] = None
+    history: Optional[List[Dict[str, Any]]] = None  # История диалога для контекста
+class QueryResponse(BaseModel):
+    answer: str
+    reason: str
+    query_id: Optional[int] = None  # ID записи в истории
+class HistoryEntry(BaseModel):
+    id: int
+    timestamp: str
+    dialogue_id: str
+    query: str
+    answer: str
+    reason: Optional[str] = None
+    search_period: Optional[Dict[str, Any]] = None
+    metadata: Optional[Dict[str, Any]] = None
+class HistoryStats(BaseModel):
+    total_queries: int
+    unique_dialogues: int
+    last_query_time: Optional[str] = None
+    first_query_time: Optional[str] = None
+class DialogueInfo(BaseModel):
+    dialogue_id: str
+    message_count: int
+    started_at: Optional[str] = None
+    last_message_at: Optional[str] = None
+# --- RAG Endpoint ---
+@app.post("/rag", response_model=QueryResponse)
+def rag_query(request: QueryRequest):
+    """Основной endpoint для запросов к RAG. Логирует запрос после получения ответа."""
+    # Если передан dialogue_id, загружаем историю
+    history = None
+    if request.dialogue_id and not request.history:
+        history = get_history_by_dialogue(request.dialogue_id)
+    elif request.history:
+        history = request.history
+    # Получаем ответ от RAG с историей (история используется для обогащения вопроса)
+    result = rag.invoke(request.query, history=history)
+    # Логируем в историю
+    query_id = log_query(
+        query=request.query,
+        answer=result.get("answer", ""),
+        reason=result.get("reason", ""),
+        dialogue_id=request.dialogue_id
+    )
+    return QueryResponse(
+        answer=result.get("answer", ""),
+        reason=result.get("reason", ""),
+        query_id=query_id
+    )
+    # except Exception as e:
+    #     raise HTTPException(
+    #         status_code=500,
+    #         detail=str(e)
+    #     )
+# --- History Endpoints ---
+@app.get("/history", response_model=List[HistoryEntry])
+def get_history(
+    limit: int = Query(default=100, ge=1, le=1000),
+    offset: int = Query(default=0, ge=0)
+):
+    """Получить историю запросов"""
+    return get_all_history(limit=limit, offset=offset)
+@app.get("/history/stats", response_model=HistoryStats)
+def get_stats():
+    """Получить статистику по истории"""
+    stats = get_history_stats()
+    return HistoryStats(
+        total_queries=stats.get("total_queries", 0),
+        unique_dialogues=stats.get("unique_dialogues", 0),
+        last_query_time=stats.get("last_query_time"),
+        first_query_time=stats.get("first_query_time")
+    )
+@app.get("/history/search", response_model=List[HistoryEntry])
+def search_in_history(
+    q: str = Query(..., min_length=1, description="Текст для поиска"),
+    limit: int = Query(default=50, ge=1, le=500)
+):
+    """Поиск по истории запросов"""
+    return search_history(search_text=q, limit=limit)
+@app.get("/history/dialogues", response_model=List[DialogueInfo])
+def get_dialogues(
+    limit: int = Query(default=10, ge=1, le=100)
+):
+    """Получить список последних диалогов"""
+    return get_recent_dialogues(limit=limit)
+@app.get("/history/dialogue/{dialogue_id}", response_model=List[HistoryEntry])
+def get_dialogue(dialogue_id: str):
+    """Получить историю конкретного диалога"""
+    return get_history_by_dialogue(dialogue_id)
+@app.delete("/history")
+def clear_history(dialogue_id: Optional[str] = None):
+    """Удалить историю (всю или конкретного диалога)"""
+    try:
+        delete_history(dialogue_id=dialogue_id)
+        if dialogue_id:
+            return {"message": f"История диалога {dialogue_id} удалена"}
+        return {"message": "Вся история удалена"}
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))
+# --- Healthcheck ---
+@app.get("/health")
+def health():
+    return {"status": "ok"}
+# --- Entry point ---
+if __name__ == "__main__":
+    import uvicorn
+    uvicorn.run(
+        "server:app",
+        host="0.0.0.0",
+        port=8000,
+        reload=True,
+    )

src/__init__.py ADDED Viewed

	@@ -0,0 +1,5 @@

+"""
+RAG Telegram 2025 - Source Package
+"""
+from src.rag import RAG

src/config.py ADDED Viewed

	@@ -0,0 +1,49 @@

+import os
+from dotenv import load_dotenv
+from qdrant_client import QdrantClient
+from sqlalchemy import create_engine
+# from src.data.parser import PyroSource
+load_dotenv()
+# Парсер
+API_ID = os.environ.get("TELEGRAM_API_ID")
+API_HASH = os.environ.get("TELEGRAM_API_HASH")
+CHANNEL_ID = os.environ.get("CHANNEL_ID")
+# pyro_source = PyroSource(api_id=API_ID, api_hash=API_HASH)
+# Sql
+DB_USER = os.getenv("DB_USER")
+DB_PASS = os.getenv("DB_PASS")
+DB_HOST = os.getenv("DB_HOST")
+DB_PORT = os.getenv("DB_PORT")
+DB_NAME = os.getenv("DB_NAME")
+PATH_TO_CERT = os.getenv("PATH_TO_CERT")
+connection_str = f"postgresql+psycopg2://{DB_USER}:{DB_PASS}@{DB_HOST}:{DB_PORT}/{DB_NAME}"
+sql_client = create_engine(
+    connection_str,
+    connect_args={
+        "sslmode": "verify-full",
+        "sslrootcert": PATH_TO_CERT,
+        "target_session_attrs": "read-write"
+    }
+)
+# Qdrant
+QDRANT_URL = os.getenv("QDRANT_URL")
+qdrant_client = QdrantClient(url=QDRANT_URL)
+# LLM
+LLM_API_KEY = os.environ.get("OPENROUTER_API_KEY")
+LLM = "qwen/qwen3-next-80b-a3b-instruct"
+# Chat settings
+CHAT_HISTORY_LENGTH = 5
+ENABLE_QUESTION_ENRICHMENT = True

src/data/__init__.py ADDED Viewed

File without changes

src/data/__pycache__/__init__.cpython-313.pyc ADDED Viewed

Binary file (149 Bytes). View file

src/data/__pycache__/parser.cpython-313.pyc ADDED Viewed

Binary file (4.43 kB). View file

src/data/__pycache__/splitter.cpython-313.pyc ADDED Viewed

Binary file (5.99 kB). View file

src/data/clean.py ADDED Viewed

	@@ -0,0 +1,71 @@

+import pandas as pd
+def strip_edges_allow_punct(s: str):
+    allowed_punct = set(".,!?;:-–—")  # можно расширять
+    # Левый указатель — пока не буква/цифра
+    left = 0
+    while left < len(s) and not s[left].isalnum():
+        left += 1
+    # Правый указатель — пока не буква/цифра/пунктуация
+    right = len(s) - 1
+    while right >= 0 and not (s[right].isalnum() or s[right] in allowed_punct):
+        right -= 1
+    # Если всё мусор
+    if right < left:
+        return ""
+    return s[left:right+1]
+def process_str(s: str):
+    # Чистка статьи от мусора
+    s = "\n".join(strip_edges_allow_punct(p) for p in s.split("\n") if p)
+    for suf in [
+        "Слушать прямой эфир",
+        "Читать РБК Стиль в Telegram",
+        "РБК Events, 18",
+        "Подписаться | Онлайн-сомелье",
+        "Читать РБК в Telegram",
+        "Следить за новостями РБК в Telegram",
+        "Следить за новостями РБК в МАХ",
+        "Другие видео этого дня — в телеграм-канале РБК",
+        "РБК в Telegram и MAX",
+        "РБК в Telegram | MAX",
+        "Подписаться на «РБК Спорт",
+        "Картина дня — в телеграм-канале РБК",
+        "Самые важные новости — в канале РБК в МАХ",
+        "Больше инфографики — в телеграм-канале РБК",
+        "Подписаться на «Сам ты инвестор!",
+        "Читать РБК Недвижимость в Telegram"
+    ]:
+        s = s.removesuffix(suf).strip()
+    parts = [p for p in s.split("\n") if p]
+    prev_parts = [0] * 1000
+    while len(prev_parts) != len(parts) and len(parts) != 0:
+        prev_parts = parts
+        if "Фото:" in parts[-1] or "Данные:" in parts[-1]:
+            parts = parts[:-1]
+    return "\n".join(parts)
+def is_advertisement(s: str):
+    # Проверка рекламных объявлений
+    last_part = [p for p in s.split("\n") if p][-1]
+    return any(v in last_part for v in ["Реклама.", "Реклама,"])
+def clean_df(df: pd.DataFrame):
+    df["message_dt"] = pd.to_datetime(df["message_dt"]).dt.date
+    df["content"] = df["content"].apply(lambda x: process_str(x))
+    df["views"] = df["views"].astype(int)
+    df = df[~df["content"].apply(is_advertisement)]
+    return df[["message_id", "channel_id", "message_dt", "views", "content"]]

src/data/parser.py ADDED Viewed

	@@ -0,0 +1,126 @@

+import time
+import datetime
+from typing import Union, Generator, List, Dict, Any, Optional
+from pyrogram import Client
+from pyrogram.types import Message
+class PyroSource:
+    def __init__(
+            self,
+            api_id: Union[int, str],
+            api_hash: str,
+            app_name: str = "default_app",
+        ):
+        self.client = Client(name=app_name, api_id=api_id, api_hash=api_hash)
+    def load_messages(
+        self,
+        channel_id: Union[int, str],
+        limit: int,
+        offset: int = 0,
+        offset_id: int = 0,
+        time_sleep: float = 0.05,
+    ) -> List[Dict[str, Any]]:
+        """
+        channel_id: channel id or username
+        limit: number of messages to load
+        offset: offset index
+        offset_id: message id offset
+        """
+        posts = []
+        with self.client as app:
+            messages: Generator[Message] = app.get_chat_history(
+                chat_id=channel_id,
+                limit=limit,
+                offset=offset,
+                offset_id=offset_id,
+            )
+            for msg in messages:
+                time.sleep(time_sleep)
+                content = msg.text or msg.caption or ''
+                original_author = (
+                    msg.forward_from_chat.username if msg.forward_from_chat else ''
+                )
+                message_dt = msg.date.strftime("%Y-%m-%d")
+                meta = {
+                    "message_dt" : message_dt,
+                    "message_id" : msg.id,
+                    "channel_id" : channel_id,
+                    "content" : content,
+                    "views" : msg.views,
+                    "original_author" : original_author,
+                }
+                posts.append(meta)
+        return posts
+    def load_days(
+        self,
+        channel_id: Union[int, str],
+        from_date: datetime.date,
+        to_date: Optional[datetime.date] = None,
+        limit: int = 1000,
+        time_sleep: float = 0.05,
+    ) -> List[Dict[str, Any]]:
+        """
+        Загружает сообщения в диапазоне дат [from_date, to_date]
+        channel_id: channel id or username
+        from_date: дата начала (включительно)
+        to_date: дата конца (включительно)
+        limit: safety limit
+        """
+        posts = []
+        offset_date = datetime.datetime.combine(
+            from_date + datetime.timedelta(days=1),
+            datetime.time.min
+        )
+        with self.client as app:
+            messages: Generator[Message] = app.get_chat_history(
+                chat_id=channel_id,
+                limit=limit,
+                offset_date=offset_date,
+            )
+            for msg in messages:
+                time.sleep(time_sleep)
+                msg_date = msg.date.date()
+                # если ушли слишком далеко в прошлое — стоп
+                if msg_date < from_date:
+                    break
+                # если задан to_date и сообщение новее — пропускаем
+                if to_date and msg_date > to_date:
+                    continue
+                content = msg.text or msg.caption or ''
+                original_author = (
+                    msg.forward_from_chat.username if msg.forward_from_chat else ''
+                )
+                meta = {
+                    "message_dt": msg_date.isoformat(),
+                    "message_id": msg.id,
+                    "channel_id": channel_id,
+                    "content": content,
+                    "views": msg.views,
+                    "original_author": original_author,
+                }
+                posts.append(meta)
+        return posts

src/data/splitter.py ADDED Viewed

	@@ -0,0 +1,132 @@

+from typing import Literal
+from transformers import AutoTokenizer
+from langchain_text_splitters import RecursiveCharacterTextSplitter, NLTKTextSplitter
+from langchain_experimental.text_splitter import SemanticChunker
+from langchain_huggingface.embeddings import HuggingFaceEmbeddings
+class Splitter:
+    """
+    Класс описывает функционал разделения текста на чанки тремя способами на выбор:
+        - рекурсивно разбивая чанки различными разделителями
+            в порядке возрастания "жесткости" их эффекта;
+        - объединяя выделенные с помощью библиотеки NLTK предложения
+            в чанки определенного размера и с наложением;
+        - разбивая текст на семантически связанные блоки
+            с помощью векторных представлений текстов;
+    """
+    def __init__(
+            self,
+            mode: Literal["recursive", "nltk", "semantic"],
+            model_name: str = "deepvk/USER-bge-m3",
+            chunk_size: int = 256,
+            chunk_overlap: int = 64,
+            **splitter_kwargs,
+        ):
+        self.chunk_size = chunk_size
+        self.chunk_overlap = chunk_overlap
+        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
+        match mode:
+            case "recursive":
+                self.splitter = RecursiveCharacterTextSplitter(
+                    separators=[
+                        "\n### ", "\n## ", "\n# ",
+                        "\n\n", "\n",
+                        "!", "?", ". ", ";", ",", ")", " ", "",
+                    ],
+                    keep_separator="end",
+                    chunk_size=chunk_size,
+                    chunk_overlap=chunk_overlap,
+                    length_function=lambda x: len(self.tokenizer.encode(x, add_special_tokens=False)),
+                    **splitter_kwargs,
+                )
+                self.split_fn = self._recursive_split
+            case "nltk":
+                self.splitter = NLTKTextSplitter(
+                    language="russian",
+                    **splitter_kwargs,
+                )
+                self.split_fn = self._nltk_split
+            case "semantic":
+                self.splitter = SemanticChunker(
+                    HuggingFaceEmbeddings(
+                        model_name=model_name,
+                        encode_kwargs={"normalize_embeddings": True},
+                    ),
+                    **splitter_kwargs,
+                )
+                self.split_fn = self._semantic_split
+    def split_text(self, text: str) -> list[str]:
+        """
+        Доступная пользователю функция разделения текста на чанки
+        """
+        return self.split_fn(text)
+    def _recursive_split(self, text: str) -> list[str]:
+        """
+        Функция разделения текста на чанки при self.splitter == RecursiveCharacterTextSplitter
+        """
+        return [
+            chunk
+            for chunk in self.splitter.split_text(text)
+            if any(ch.isalpha() for ch in set(chunk))
+        ]
+    def _nltk_split(self, text: str) -> list[str]:
+        """
+        Функция разделения текста на чанки при self.splitter == NLTKTextSplitter
+        """
+        sentences = self.splitter.split_text(text)[0].split("\n\n")
+        sent_sizes = [
+            len(self.tokenizer.encode(sent, add_special_tokens=False))
+            for sent in sentences
+        ]
+        chunks = []
+        i, n = 0, len(sentences)
+        while i < n:
+            cur_len, cur_texts = 0, []
+            # --- Собираем строки в чанк ---
+            j = i
+            while (j < n) and (cur_len + sent_sizes[j] <= self.chunk_size):
+                cur_texts.append(sentences[j])
+                cur_len += sent_sizes[j]
+                j += 1
+            chunks.append(cur_texts)
+            # --- Сдвигаем окно с overlap ---
+            if j >= n:
+                break
+            # Держим overlap в токенах, но не превышая его
+            overlap_len, k = 0, j - 1
+            while (k >= i) and (overlap_len + sent_sizes[k] <= self.chunk_overlap):
+                overlap_len += sent_sizes[k]
+                k -= 1  # идём назад от конца чанка
+            # Следующий старт = k+1
+            i = k + 1
+        return chunks
+    def _semantic_split(self, text: str) -> list[str]:
+        """
+        Функция разделения текста на чанки при self.splitter == SemanticChunker
+        """
+        return self.splitter.split_text(text)

src/dataset/rbc/channel_rbc_news_posts.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

src/dataset/test_cases.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

src/db_utils/__init__.py ADDED Viewed

File without changes

src/db_utils/__pycache__/__init__.cpython-313.pyc ADDED Viewed

Binary file (153 Bytes). View file

src/db_utils/__pycache__/history_utils.cpython-313.pyc ADDED Viewed

Binary file (13 kB). View file

src/db_utils/__pycache__/qdrant_utils.cpython-313.pyc ADDED Viewed

Binary file (2.3 kB). View file

src/db_utils/__pycache__/sql_utils.cpython-313.pyc ADDED Viewed

Binary file (3.45 kB). View file

src/db_utils/db_example_usage.ipynb ADDED Viewed

	@@ -0,0 +1,881 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "70227cfd",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from sqlalchemy import create_engine\n",
+    "from dotenv import load_dotenv\n",
+    "from sqlalchemy import text\n",
+    "import pandas as pd\n",
+    "import os\n",
+    "\n",
+    "load_dotenv()\n",
+    "\n",
+    "DB_USER = os.getenv('DB_USER')\n",
+    "DB_PASS = os.getenv('DB_PASS')\n",
+    "DB_HOST = os.getenv('DB_HOST')\n",
+    "DB_PORT = os.getenv('DB_PORT')\n",
+    "DB_NAME = os.getenv('DB_NAME')\n",
+    "PATH_TO_CERT = os.getenv('PATH_TO_CERT')\n",
+    "\n",
+    "connection_str = f\"postgresql+psycopg2://{DB_USER}:{DB_PASS}@{DB_HOST}:{DB_PORT}/{DB_NAME}\"\n",
+    "\n",
+    "engine = create_engine(\n",
+    "    connection_str,\n",
+    "    connect_args={\n",
+    "        \"sslmode\": \"verify-full\",\n",
+    "        \"sslrootcert\": PATH_TO_CERT,\n",
+    "        \"target_session_attrs\": \"read-write\"\n",
+    "    }\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "fd49e25a",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "167"
+      ]
+     },
+     "execution_count": 2,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "df = pd.read_csv(\"/Users/incllude/dev/rag_tg_2025/generated_qa.csv\")\n",
+    "df.to_sql('test_cases', engine, if_exists='replace', index=False)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "id": "0bb4f789",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "create_table_query = \"\"\"\n",
+    "drop table if exists posts;\n",
+    "\"\"\"\n",
+    "\n",
+    "try:\n",
+    "    with engine.begin() as conn:\n",
+    "        conn.execute(text(create_table_query))\n",
+    "except Exception as e:\n",
+    "    print(\"Ошибка:\", e)\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "e687fcdb",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>message_id</th>\n",
+       "      <th>channel_id</th>\n",
+       "      <th>message_dt</th>\n",
+       "      <th>views</th>\n",
+       "      <th>content</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>137228</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-12-03</td>\n",
+       "      <td>40045</td>\n",
+       "      <td>Суд признал писателя Бориса Акунина (настоящее...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>137226</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-12-03</td>\n",
+       "      <td>53463</td>\n",
+       "      <td>На характере переговоров с США, прошедших нака...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>137224</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-12-03</td>\n",
+       "      <td>56667</td>\n",
+       "      <td>Еврокомиссия намерена запретить исполнение вну...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>137223</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-12-03</td>\n",
+       "      <td>55604</td>\n",
+       "      <td>Прямо сейчас в эфире Радио РБК обсуждаем планы...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>137222</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-12-03</td>\n",
+       "      <td>61798</td>\n",
+       "      <td>Коллегия Еврокомиссии одобрила «потенциальный ...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4795</th>\n",
+       "      <td>116045</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-04-15</td>\n",
+       "      <td>108803</td>\n",
+       "      <td>Суд на Сахалине вынес первое решение по делу о...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4796</th>\n",
+       "      <td>116044</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-04-15</td>\n",
+       "      <td>108074</td>\n",
+       "      <td>Оператор национальных лотерей Франции стал отв...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4797</th>\n",
+       "      <td>116043</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-04-15</td>\n",
+       "      <td>143013</td>\n",
+       "      <td>Слоны во время землетрясения в зоопарке Сан-Ди...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4798</th>\n",
+       "      <td>116041</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-04-15</td>\n",
+       "      <td>125020</td>\n",
+       "      <td>Аэропорт южнокорейского города Муан регулярно ...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4799</th>\n",
+       "      <td>116039</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-04-15</td>\n",
+       "      <td>156002</td>\n",
+       "      <td>Первоклассники не должны заниматься уроками бо...</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>4800 rows × 5 columns</p>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "      message_id channel_id  message_dt   views  \\\n",
+       "0         137228   rbc_news  2025-12-03   40045   \n",
+       "1         137226   rbc_news  2025-12-03   53463   \n",
+       "2         137224   rbc_news  2025-12-03   56667   \n",
+       "3         137223   rbc_news  2025-12-03   55604   \n",
+       "4         137222   rbc_news  2025-12-03   61798   \n",
+       "...          ...        ...         ...     ...   \n",
+       "4795      116045   rbc_news  2025-04-15  108803   \n",
+       "4796      116044   rbc_news  2025-04-15  108074   \n",
+       "4797      116043   rbc_news  2025-04-15  143013   \n",
+       "4798      116041   rbc_news  2025-04-15  125020   \n",
+       "4799      116039   rbc_news  2025-04-15  156002   \n",
+       "\n",
+       "                                                content  \n",
+       "0     Суд признал писателя Бориса Акунина (настоящее...  \n",
+       "1     На характере переговоров с США, прошедших нака...  \n",
+       "2     Еврокомиссия намерена запретить исполнение вну...  \n",
+       "3     Прямо сейчас в эфире Радио РБК обсуждаем планы...  \n",
+       "4     Коллегия Еврокомиссии одобрила «потенциальный ...  \n",
+       "...                                                 ...  \n",
+       "4795  Суд на Сахалине вынес первое решение по делу о...  \n",
+       "4796  Оператор национальных лотерей Франции стал отв...  \n",
+       "4797  Слоны во время землетрясения в зоопарке Сан-Ди...  \n",
+       "4798  Аэропорт южнокорейского города Муан регулярно ...  \n",
+       "4799  Первоклассники не должны заниматься уроками бо...  \n",
+       "\n",
+       "[4800 rows x 5 columns]"
+      ]
+     },
+     "execution_count": 6,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "with engine.connect() as conn:\n",
+    "    df = pd.read_sql('''\n",
+    "select * from posts\n",
+    "    ''', conn)\n",
+    "\n",
+    "df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 73,
+   "id": "8abd0803",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>message_id</th>\n",
+       "      <th>channel_id</th>\n",
+       "      <th>message_dt</th>\n",
+       "      <th>views</th>\n",
+       "      <th>content</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>4498</th>\n",
+       "      <td>130471</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-09-12</td>\n",
+       "      <td>139946</td>\n",
+       "      <td>Адвокат бывшего мэра Стамбула Экрема Имамоглу ...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1054</th>\n",
+       "      <td>134025</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-10-22</td>\n",
+       "      <td>112469</td>\n",
+       "      <td>Госдума приняла в первом чтении проект бюджета...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>283</th>\n",
+       "      <td>136520</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-11-24</td>\n",
+       "      <td>118238</td>\n",
+       "      <td>Силы ПВО в период с 14:00 до 20:00 мск уничтож...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4406</th>\n",
+       "      <td>124142</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-07-15</td>\n",
+       "      <td>122075</td>\n",
+       "      <td>В Госдуме из-за мощных ливней затопило курилку...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1378</th>\n",
+       "      <td>135060</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-11-05</td>\n",
+       "      <td>114842</td>\n",
+       "      <td>Американская актриса и посол доброй воли ЮНИСЕ...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1467</th>\n",
+       "      <td>130799</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-09-17</td>\n",
+       "      <td>135139</td>\n",
+       "      <td>Кинокомпании Walt Disney, Universal и Warner B...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4581</th>\n",
+       "      <td>123624</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-07-10</td>\n",
+       "      <td>121628</td>\n",
+       "      <td>Главные новости к утру — на телеканале РБК</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4281</th>\n",
+       "      <td>130775</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-09-16</td>\n",
+       "      <td>120652</td>\n",
+       "      <td>Путин примерил тепловизионные очки «Стрекоза» ...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>241</th>\n",
+       "      <td>136585</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-11-25</td>\n",
+       "      <td>101214</td>\n",
+       "      <td>Российского посла вызвали в МИД Молдавии из-за...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1947</th>\n",
+       "      <td>128465</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-08-23</td>\n",
+       "      <td>163463</td>\n",
+       "      <td>Ограничения полетов ввели в аэропорту Ульяновс...</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>4800 rows × 5 columns</p>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "      message_id channel_id  message_dt   views  \\\n",
+       "4498      130471   rbc_news  2025-09-12  139946   \n",
+       "1054      134025   rbc_news  2025-10-22  112469   \n",
+       "283       136520   rbc_news  2025-11-24  118238   \n",
+       "4406      124142   rbc_news  2025-07-15  122075   \n",
+       "1378      135060   rbc_news  2025-11-05  114842   \n",
+       "...          ...        ...         ...     ...   \n",
+       "1467      130799   rbc_news  2025-09-17  135139   \n",
+       "4581      123624   rbc_news  2025-07-10  121628   \n",
+       "4281      130775   rbc_news  2025-09-16  120652   \n",
+       "241       136585   rbc_news  2025-11-25  101214   \n",
+       "1947      128465   rbc_news  2025-08-23  163463   \n",
+       "\n",
+       "                                                content  \n",
+       "4498  Адвокат бывшего мэра Стамбула Экрема Имамоглу ...  \n",
+       "1054  Госдума приняла в первом чтении проект бюджета...  \n",
+       "283   Силы ПВО в период с 14:00 до 20:00 мск уничтож...  \n",
+       "4406  В Госдуме из-за мощных ливней затопило курилку...  \n",
+       "1378  Американская актриса и посол доброй воли ЮНИСЕ...  \n",
+       "...                                                 ...  \n",
+       "1467  Кинокомп��нии Walt Disney, Universal и Warner B...  \n",
+       "4581         Главные новости к утру — на телеканале РБК  \n",
+       "4281  Путин примерил тепловизионные очки «Стрекоза» ...  \n",
+       "241   Российского посла вызвали в МИД Молдавии из-за...  \n",
+       "1947  Ограничения полетов ввели в аэропорту Ульяновс...  \n",
+       "\n",
+       "[4800 rows x 5 columns]"
+      ]
+     },
+     "execution_count": 73,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "def strip_edges_allow_punct(s: str):\n",
+    "    allowed_punct = set(\".,!?;:-–—\")  # можно расширять\n",
+    "\n",
+    "    # Левый указатель — пока не буква/цифра\n",
+    "    left = 0\n",
+    "    while left < len(s) and not s[left].isalnum():\n",
+    "        left += 1\n",
+    "\n",
+    "    # Правый указатель — пока не буква/цифра/пунктуация\n",
+    "    right = len(s) - 1\n",
+    "    while right >= 0 and not (s[right].isalnum() or s[right] in allowed_punct):\n",
+    "        right -= 1\n",
+    "\n",
+    "    # Если всё мусор\n",
+    "    if right < left:\n",
+    "        return \"\"\n",
+    "\n",
+    "    return s[left:right+1]\n",
+    "\n",
+    "\n",
+    "\n",
+    "def process_str(s):\n",
+    "    s = \"\\n\".join(strip_edges_allow_punct(p) for p in s.split(\"\\n\") if p)\n",
+    "    \n",
+    "    for suf in [\n",
+    "        \"Слушать прямой эфир\",\n",
+    "        \"Читать РБК Стиль в Telegram\",\n",
+    "        \"РБК Events, 18\",\n",
+    "        \"Подписаться | Онлайн-сомелье\",\n",
+    "        \"Читать РБК в Telegram\",\n",
+    "        \"Следить за новостями РБК в Telegram\",\n",
+    "        \"Следить за новостями РБК в МАХ\",\n",
+    "        \"Другие видео этого дня — в телеграм-канале РБК\",\n",
+    "        \"РБК в Telegram и MAX\",\n",
+    "        \"РБК в Telegram | MAX\",\n",
+    "        \"Подписаться на «РБК Спорт\",\n",
+    "        \"Картина дня — в телеграм-канале РБК\",\n",
+    "        \"Самые важные новости — в канале РБК в МАХ\",\n",
+    "        \"Больше инфографики — в телеграм-канале РБК\",\n",
+    "        \"Подписаться на «Сам ты инвестор!\",\n",
+    "        \"Читать РБК Недвижимость в Telegram\"\n",
+    "    ]:\n",
+    "        s = s.removesuffix(suf).strip()\n",
+    "\n",
+    "    parts = [p for p in s.split(\"\\n\") if p]\n",
+    "    \n",
+    "    prev_parts = [0] * 1000\n",
+    "    while len(prev_parts) != len(parts) and len(parts) != 0:\n",
+    "        prev_parts = parts\n",
+    "        if \"Фото:\" in parts[-1] or \"Данные:\" in parts[-1]:\n",
+    "            parts = parts[:-1]\n",
+    "    \n",
+    "    return \"\\n\".join(parts)\n",
+    "\n",
+    "import pandas as pd\n",
+    "\n",
+    "rbc = pd.read_csv(\"src/dataset/rbc/channel_rbc_news_posts.csv\")\n",
+    "rbc[\"message_dt\"] = pd.to_datetime(rbc[\"message_dt\"]).dt.date\n",
+    "rbc = rbc[[\"message_id\", \"channel_id\", \"message_dt\", \"views\", \"content\"]].astype({\"views\": int}).sample(len(rbc))\n",
+    "rbc[\"content\"] = rbc[\"content\"].apply(lambda x: process_str(x))\n",
+    "rbc = rbc[rbc[\"content\"].apply(\n",
+    "        lambda x: not any(v in [p for p in x.split(\"\\n\") if p][-1] for v in [\"Реклама.\", \"Реклама,\"]) if x else False\n",
+    "    )]\n",
+    "rbc"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 74,
+   "id": "85bf4cbf",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "800"
+      ]
+     },
+     "execution_count": 74,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "create_table_query = \"\"\"\n",
+    "drop table if exists posts;\n",
+    "\"\"\"\n",
+    "\n",
+    "try:\n",
+    "    with engine.begin() as conn:\n",
+    "        conn.execute(text(create_table_query))\n",
+    "except Exception as e:\n",
+    "    print(\"Ошибка:\", e)\n",
+    "\n",
+    "rbc.to_sql('posts', engine, if_exists='replace', index=False)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 22,
+   "id": "cc99786f",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>message_id</th>\n",
+       "      <th>channel_id</th>\n",
+       "      <th>message_dt</th>\n",
+       "      <th>views</th>\n",
+       "      <th>content</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>137228</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-12-03</td>\n",
+       "      <td>40045</td>\n",
+       "      <td>Суд признал писателя Бориса Акунина (настоящее...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>137226</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-12-03</td>\n",
+       "      <td>53463</td>\n",
+       "      <td>На характере переговоров с США, прошедших нака...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>137224</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-12-03</td>\n",
+       "      <td>56667</td>\n",
+       "      <td>Еврокомиссия намерена запретить исполнение вну...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>137223</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-12-03</td>\n",
+       "      <td>55604</td>\n",
+       "      <td>🎙 Прямо сейчас в эфире Радио РБК обсуждаем пла...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>137222</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-12-03</td>\n",
+       "      <td>61798</td>\n",
+       "      <td>Коллегия Еврокомиссии одобрила «потенциальный ...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4820</th>\n",
+       "      <td>116046</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-04-15</td>\n",
+       "      <td>106022</td>\n",
+       "      <td>Репортаж телеканала РБК из Курска, который ноч...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4821</th>\n",
+       "      <td>116045</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-04-15</td>\n",
+       "      <td>108803</td>\n",
+       "      <td>Суд на Сахалине вынес первое решение по делу о...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4822</th>\n",
+       "      <td>116044</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-04-15</td>\n",
+       "      <td>108074</td>\n",
+       "      <td>Оператор национальных лотерей Франции стал отв...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4823</th>\n",
+       "      <td>116041</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-04-15</td>\n",
+       "      <td>125020</td>\n",
+       "      <td>Аэропорт южнокорейского города Муан регулярно ...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4824</th>\n",
+       "      <td>116039</td>\n",
+       "      <td>rbc_news</td>\n",
+       "      <td>2025-04-15</td>\n",
+       "      <td>156002</td>\n",
+       "      <td>Первоклассники не должны заниматься уроками бо...</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>4825 rows × 5 columns</p>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "      message_id channel_id  message_dt   views  \\\n",
+       "0         137228   rbc_news  2025-12-03   40045   \n",
+       "1         137226   rbc_news  2025-12-03   53463   \n",
+       "2         137224   rbc_news  2025-12-03   56667   \n",
+       "3         137223   rbc_news  2025-12-03   55604   \n",
+       "4         137222   rbc_news  2025-12-03   61798   \n",
+       "...          ...        ...         ...     ...   \n",
+       "4820      116046   rbc_news  2025-04-15  106022   \n",
+       "4821      116045   rbc_news  2025-04-15  108803   \n",
+       "4822      116044   rbc_news  2025-04-15  108074   \n",
+       "4823      116041   rbc_news  2025-04-15  125020   \n",
+       "4824      116039   rbc_news  2025-04-15  156002   \n",
+       "\n",
+       "                                                content  \n",
+       "0     Суд признал писателя Бориса Акунина (настоящее...  \n",
+       "1     На характере переговоров с США, прошедших нака...  \n",
+       "2     Еврокомиссия намерена запретить исполнение вну...  \n",
+       "3     🎙 Прямо сейчас в эфире Радио РБК обсуждаем пла...  \n",
+       "4     Коллегия Еврокомиссии одобрила «потенциальный ...  \n",
+       "...                                                 ...  \n",
+       "4820  Репортаж телеканала РБК из Курска, который ноч...  \n",
+       "4821  Суд на Сахалине вынес первое решение по делу о...  \n",
+       "4822  Оператор национальных лотерей Франции стал отв...  \n",
+       "4823  Аэропорт южнокорейского города Муан регулярно ...  \n",
+       "4824  Первоклассники не должны заниматься уроками бо...  \n",
+       "\n",
+       "[4825 rows x 5 columns]"
+      ]
+     },
+     "execution_count": 22,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "with engine.connect() as conn:\n",
+    "    df = pd.read_sql('''\n",
+    "select * from posts\n",
+    "    ''', conn)\n",
+    "\n",
+    "df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "18c9a8be",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/var/folders/gv/dw4pvdvn4kqgq0tgn3m5qp940000gn/T/ipykernel_42516/890927509.py:10: UserWarning: Qdrant client version 1.16.2 is incompatible with server version 1.14.1. Major versions should match and minor version difference must not exceed 1. Set check_compatibility=False to skip version check.\n",
+      "  client = QdrantClient(\n"
+     ]
+    }
+   ],
+   "source": [
+    "from qdrant_client import QdrantClient, models\n",
+    "from dotenv import load_dotenv\n",
+    "import numpy as np\n",
+    "import os\n",
+    "\n",
+    "load_dotenv()\n",
+    "\n",
+    "QDRANT_URL = os.getenv('QDRANT_URL')\n",
+    "\n",
+    "client = QdrantClient(\n",
+    "    url=QDRANT_URL,\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "id": "a0c3386a",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "True"
+      ]
+     },
+     "execution_count": 9,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "client.delete_collection(collection_name=\"recursive_USER-bge-m3\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "7431dcf9",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "True"
+      ]
+     },
+     "execution_count": 2,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "client.create_collection(\n",
+    "    collection_name=\"my_collection\",\n",
+    "    vectors_config=models.VectorParams(\n",
+    "        size=384, \n",
+    "        distance=models.Distance.COSINE\n",
+    "    )\n",
+    ")\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "7e9e6318",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "UpdateResult(operation_id=3, status=<UpdateStatus.COMPLETED: 'completed'>)"
+      ]
+     },
+     "execution_count": 15,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "points = [\n",
+    "    models.PointStruct(\n",
+    "        id=1,\n",
+    "        vector=np.ones(384).tolist(),\n",
+    "        payload={\"text\": \"Пример документа 1\"}\n",
+    "    ),\n",
+    "    models.PointStruct(\n",
+    "        id=2,\n",
+    "        vector=(-np.ones(384)).tolist(),\n",
+    "        payload={\"text\": \"Пример документа 2\"}\n",
+    "    )\n",
+    "]\n",
+    "\n",
+    "client.upsert(\n",
+    "    collection_name=\"my_collection\",\n",
+    "    points=points,\n",
+    "    wait=True\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "2186428b",
+   "metadata": {},
+   "outputs": [
+    {
+     "ename": "UnexpectedResponse",
+     "evalue": "Unexpected Response: 404 (Not Found)\nRaw response content:\nb'{\"status\":{\"error\":\"Not found: Collection `my_collection` doesn\\'t exist!\"},\"time\":0.004926893}'",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[31m---------------------------------------------------------------------------\u001b[39m",
+      "\u001b[31mUnexpectedResponse\u001b[39m                        Traceback (most recent call last)",
+      "\u001b[36mCell\u001b[39m\u001b[36m \u001b[39m\u001b[32mIn[3]\u001b[39m\u001b[32m, line 1\u001b[39m\n\u001b[32m----> \u001b[39m\u001b[32m1\u001b[39m results = \u001b[43mclient\u001b[49m\u001b[43m.\u001b[49m\u001b[43mquery_points\u001b[49m\u001b[43m(\u001b[49m\n\u001b[32m      2\u001b[39m \u001b[43m    \u001b[49m\u001b[43mcollection_name\u001b[49m\u001b[43m=\u001b[49m\u001b[33;43m\"\u001b[39;49m\u001b[33;43mmy_collection\u001b[39;49m\u001b[33;43m\"\u001b[39;49m\u001b[43m,\u001b[49m\n\u001b[32m      3\u001b[39m \u001b[43m    \u001b[49m\u001b[43mquery\u001b[49m\u001b[43m=\u001b[49m\u001b[43m(\u001b[49m\u001b[43m-\u001b[49m\u001b[43mnp\u001b[49m\u001b[43m.\u001b[49m\u001b[43mones\u001b[49m\u001b[43m(\u001b[49m\u001b[32;43m384\u001b[39;49m\u001b[43m)\u001b[49m\u001b[43m)\u001b[49m\u001b[43m.\u001b[49m\u001b[43mtolist\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m      4\u001b[39m \u001b[43m    \u001b[49m\u001b[43mlimit\u001b[49m\u001b[43m=\u001b[49m\u001b[32;43m1\u001b[39;49m\n\u001b[32m      5\u001b[39m \u001b[43m)\u001b[49m\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m~/dev/rag_tg_2025/venv/lib/python3.13/site-packages/qdrant_client/qdrant_client.py:423\u001b[39m, in \u001b[36mQdrantClient.query_points\u001b[39m\u001b[34m(self, collection_name, query, using, prefetch, query_filter, search_params, limit, offset, with_payload, with_vectors, score_threshold, lookup_from, consistency, shard_key_selector, timeout, **kwargs)\u001b[39m\n\u001b[32m    408\u001b[39m         \u001b[38;5;28;01melse\u001b[39;00m:\n\u001b[32m    409\u001b[39m             prefetch = (\n\u001b[32m    410\u001b[39m                 \u001b[38;5;28mnext\u001b[39m(\n\u001b[32m    411\u001b[39m                     \u001b[38;5;28miter\u001b[39m(\n\u001b[32m   (...)\u001b[39m\u001b[32m    420\u001b[39m                 \u001b[38;5;28;01melse\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m\n\u001b[32m    421\u001b[39m             )\n\u001b[32m--> \u001b[39m\u001b[32m423\u001b[39m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[43m.\u001b[49m\u001b[43m_client\u001b[49m\u001b[43m.\u001b[49m\u001b[43mquery_points\u001b[49m\u001b[43m(\u001b[49m\n\u001b[32m    424\u001b[39m \u001b[43m    \u001b[49m\u001b[43mcollection_name\u001b[49m\u001b[43m=\u001b[49m\u001b[43mcollection_name\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    425\u001b[39m \u001b[43m    \u001b[49m\u001b[43mquery\u001b[49m\u001b[43m=\u001b[49m\u001b[43mquery\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    426\u001b[39m \u001b[43m    \u001b[49m\u001b[43mprefetch\u001b[49m\u001b[43m=\u001b[49m\u001b[43mprefetch\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    427\u001b[39m \u001b[43m    \u001b[49m\u001b[43mquery_filter\u001b[49m\u001b[43m=\u001b[49m\u001b[43mquery_filter\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    428\u001b[39m \u001b[43m    \u001b[49m\u001b[43msearch_params\u001b[49m\u001b[43m=\u001b[49m\u001b[43msearch_params\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    429\u001b[39m \u001b[43m    \u001b[49m\u001b[43mlimit\u001b[49m\u001b[43m=\u001b[49m\u001b[43mlimit\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    430\u001b[39m \u001b[43m    \u001b[49m\u001b[43moffset\u001b[49m\u001b[43m=\u001b[49m\u001b[43moffset\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    431\u001b[39m \u001b[43m    \u001b[49m\u001b[43mwith_payload\u001b[49m\u001b[43m=\u001b[49m\u001b[43mwith_payload\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    432\u001b[39m \u001b[43m    \u001b[49m\u001b[43mwith_vectors\u001b[49m\u001b[43m=\u001b[49m\u001b[43mwith_vectors\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    433\u001b[39m \u001b[43m    \u001b[49m\u001b[43mscore_threshold\u001b[49m\u001b[43m=\u001b[49m\u001b[43mscore_threshold\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    434\u001b[39m \u001b[43m    \u001b[49m\u001b[43musing\u001b[49m\u001b[43m=\u001b[49m\u001b[43musing\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    435\u001b[39m \u001b[43m    \u001b[49m\u001b[43mlookup_from\u001b[49m\u001b[43m=\u001b[49m\u001b[43mlookup_from\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    436\u001b[39m \u001b[43m    \u001b[49m\u001b[43mconsistency\u001b[49m\u001b[43m=\u001b[49m\u001b[43mconsistency\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    437\u001b[39m \u001b[43m    \u001b[49m\u001b[43mshard_key_selector\u001b[49m\u001b[43m=\u001b[49m\u001b[43mshard_key_selector\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    438\u001b[39m \u001b[43m    \u001b[49m\u001b[43mtimeout\u001b[49m\u001b[43m=\u001b[49m\u001b[43mtimeout\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    439\u001b[39m \u001b[43m    \u001b[49m\u001b[43m*\u001b[49m\u001b[43m*\u001b[49m\u001b[43mkwargs\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    440\u001b[39m \u001b[43m\u001b[49m\u001b[43m)\u001b[49m\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m~/dev/rag_tg_2025/venv/lib/python3.13/site-packages/qdrant_client/qdrant_remote.py:538\u001b[39m, in \u001b[36mQdrantRemote.query_points\u001b[39m\u001b[34m(self, collection_name, query, using, prefetch, query_filter, search_params, limit, offset, with_payload, with_vectors, score_threshold, lookup_from, consistency, shard_key_selector, timeout, **kwargs)\u001b[39m\n\u001b[32m    521\u001b[39m     lookup_from = GrpcToRest.convert_lookup_location(lookup_from)\n\u001b[32m    523\u001b[39m query_request = models.QueryRequest(\n\u001b[32m    524\u001b[39m     shard_key=shard_key_selector,\n\u001b[32m    525\u001b[39m     prefetch=prefetch,\n\u001b[32m   (...)\u001b[39m\u001b[32m    535\u001b[39m     lookup_from=lookup_from,\n\u001b[32m    536\u001b[39m )\n\u001b[32m--> \u001b[39m\u001b[32m538\u001b[39m query_result = \u001b[38;5;28;43mself\u001b[39;49m\u001b[43m.\u001b[49m\u001b[43mhttp\u001b[49m\u001b[43m.\u001b[49m\u001b[43msearch_api\u001b[49m\u001b[43m.\u001b[49m\u001b[43mquery_points\u001b[49m\u001b[43m(\u001b[49m\n\u001b[32m    539\u001b[39m \u001b[43m    \u001b[49m\u001b[43mcollection_name\u001b[49m\u001b[43m=\u001b[49m\u001b[43mcollection_name\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    540\u001b[39m \u001b[43m    \u001b[49m\u001b[43mconsistency\u001b[49m\u001b[43m=\u001b[49m\u001b[43mconsistency\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    541\u001b[39m \u001b[43m    \u001b[49m\u001b[43mtimeout\u001b[49m\u001b[43m=\u001b[49m\u001b[43mtimeout\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    542\u001b[39m \u001b[43m    \u001b[49m\u001b[43mquery_request\u001b[49m\u001b[43m=\u001b[49m\u001b[43mquery_request\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    543\u001b[39m \u001b[43m\u001b[49m\u001b[43m)\u001b[49m\n\u001b[32m    545\u001b[39m result: models.QueryResponse | \u001b[38;5;28;01mNone\u001b[39;00m = query_result.result\n\u001b[32m    546\u001b[39m \u001b[38;5;28;01massert\u001b[39;00m result \u001b[38;5;129;01mis\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m, \u001b[33m\"\u001b[39m\u001b[33mSearch returned None\u001b[39m\u001b[33m\"\u001b[39m\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m~/dev/rag_tg_2025/venv/lib/python3.13/site-packages/qdrant_client/http/api/search_api.py:783\u001b[39m, in \u001b[36mSyncSearchApi.query_points\u001b[39m\u001b[34m(self, collection_name, consistency, timeout, query_request)\u001b[39m\n\u001b[32m    773\u001b[39m \u001b[38;5;28;01mdef\u001b[39;00m\u001b[38;5;250m \u001b[39m\u001b[34mquery_points\u001b[39m(\n\u001b[32m    774\u001b[39m     \u001b[38;5;28mself\u001b[39m,\n\u001b[32m    775\u001b[39m     collection_name: \u001b[38;5;28mstr\u001b[39m,\n\u001b[32m   (...)\u001b[39m\u001b[32m    778\u001b[39m     query_request: m.QueryRequest = \u001b[38;5;28;01mNone\u001b[39;00m,\n\u001b[32m    779\u001b[39m ) -> m.InlineResponse20021:\n\u001b[32m    780\u001b[39m \u001b[38;5;250m    \u001b[39m\u001b[33;03m\"\"\"\u001b[39;00m\n\u001b[32m    781\u001b[39m \u001b[33;03m    Universally query points. This endpoint covers all capabilities of search, recommend, discover, filters. But also enables hybrid and multi-stage queries.\u001b[39;00m\n\u001b[32m    782\u001b[39m \u001b[33;03m    \"\"\"\u001b[39;00m\n\u001b[32m--> \u001b[39m\u001b[32m783\u001b[39m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[43m.\u001b[49m\u001b[43m_build_for_query_points\u001b[49m\u001b[43m(\u001b[49m\n\u001b[32m    784\u001b[39m \u001b[43m        \u001b[49m\u001b[43mcollection_name\u001b[49m\u001b[43m=\u001b[49m\u001b[43mcollection_name\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    785\u001b[39m \u001b[43m        \u001b[49m\u001b[43mconsistency\u001b[49m\u001b[43m=\u001b[49m\u001b[43mconsistency\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    786\u001b[39m \u001b[43m        \u001b[49m\u001b[43mtimeout\u001b[49m\u001b[43m=\u001b[49m\u001b[43mtimeout\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    787\u001b[39m \u001b[43m        \u001b[49m\u001b[43mquery_request\u001b[49m\u001b[43m=\u001b[49m\u001b[43mquery_request\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    788\u001b[39m \u001b[43m    \u001b[49m\u001b[43m)\u001b[49m\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m~/dev/rag_tg_2025/venv/lib/python3.13/site-packages/qdrant_client/http/api/search_api.py:181\u001b[39m, in \u001b[36m_SearchApi._build_for_query_points\u001b[39m\u001b[34m(self, collection_name, consistency, timeout, query_request)\u001b[39m\n\u001b[32m    179\u001b[39m \u001b[38;5;28;01mif\u001b[39;00m \u001b[33m\"\u001b[39m\u001b[33mContent-Type\u001b[39m\u001b[33m\"\u001b[39m \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;129;01min\u001b[39;00m headers:\n\u001b[32m    180\u001b[39m     headers[\u001b[33m\"\u001b[39m\u001b[33mContent-Type\u001b[39m\u001b[33m\"\u001b[39m] = \u001b[33m\"\u001b[39m\u001b[33mapplication/json\u001b[39m\u001b[33m\"\u001b[39m\n\u001b[32m--> \u001b[39m\u001b[32m181\u001b[39m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[43m.\u001b[49m\u001b[43mapi_client\u001b[49m\u001b[43m.\u001b[49m\u001b[43mrequest\u001b[49m\u001b[43m(\u001b[49m\n\u001b[32m    182\u001b[39m \u001b[43m    \u001b[49m\u001b[43mtype_\u001b[49m\u001b[43m=\u001b[49m\u001b[43mm\u001b[49m\u001b[43m.\u001b[49m\u001b[43mInlineResponse20021\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    183\u001b[39m \u001b[43m    \u001b[49m\u001b[43mmethod\u001b[49m\u001b[43m=\u001b[49m\u001b[33;43m\"\u001b[39;49m\u001b[33;43mPOST\u001b[39;49m\u001b[33;43m\"\u001b[39;49m\u001b[43m,\u001b[49m\n\u001b[32m    184\u001b[39m \u001b[43m    \u001b[49m\u001b[43murl\u001b[49m\u001b[43m=\u001b[49m\u001b[33;43m\"\u001b[39;49m\u001b[33;43m/collections/\u001b[39;49m\u001b[38;5;132;43;01m{collection_name}\u001b[39;49;00m\u001b[33;43m/points/query\u001b[39;49m\u001b[33;43m\"\u001b[39;49m\u001b[43m,\u001b[49m\n\u001b[32m    185\u001b[39m \u001b[43m    \u001b[49m\u001b[43mheaders\u001b[49m\u001b[43m=\u001b[49m\u001b[43mheaders\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;28;43;01mif\u001b[39;49;00m\u001b[43m \u001b[49m\u001b[43mheaders\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;28;43;01melse\u001b[39;49;00m\u001b[43m \u001b[49m\u001b[38;5;28;43;01mNone\u001b[39;49;00m\u001b[43m,\u001b[49m\n\u001b[32m    186\u001b[39m \u001b[43m    \u001b[49m\u001b[43mpath_params\u001b[49m\u001b[43m=\u001b[49m\u001b[43mpath_params\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    187\u001b[39m \u001b[43m    \u001b[49m\u001b[43mparams\u001b[49m\u001b[43m=\u001b[49m\u001b[43mquery_params\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    188\u001b[39m \u001b[43m    \u001b[49m\u001b[43mcontent\u001b[49m\u001b[43m=\u001b[49m\u001b[43mbody\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m    189\u001b[39m \u001b[43m\u001b[49m\u001b[43m)\u001b[49m\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m~/dev/rag_tg_2025/venv/lib/python3.13/site-packages/qdrant_client/http/api_client.py:95\u001b[39m, in \u001b[36mApiClient.request\u001b[39m\u001b[34m(self, type_, method, url, path_params, **kwargs)\u001b[39m\n\u001b[32m     93\u001b[39m     kwargs[\u001b[33m\"\u001b[39m\u001b[33mtimeout\u001b[39m\u001b[33m\"\u001b[39m] = \u001b[38;5;28mint\u001b[39m(kwargs[\u001b[33m\"\u001b[39m\u001b[33mparams\u001b[39m\u001b[33m\"\u001b[39m][\u001b[33m\"\u001b[39m\u001b[33mtimeout\u001b[39m\u001b[33m\"\u001b[39m])\n\u001b[32m     94\u001b[39m request = \u001b[38;5;28mself\u001b[39m._client.build_request(method, url, **kwargs)\n\u001b[32m---> \u001b[39m\u001b[32m95\u001b[39m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[43m.\u001b[49m\u001b[43msend\u001b[49m\u001b[43m(\u001b[49m\u001b[43mrequest\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mtype_\u001b[49m\u001b[43m)\u001b[49m\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m~/dev/rag_tg_2025/venv/lib/python3.13/site-packages/qdrant_client/http/api_client.py:130\u001b[39m, in \u001b[36mApiClient.send\u001b[39m\u001b[34m(self, request, type_)\u001b[39m\n\u001b[32m    128\u001b[39m     \u001b[38;5;28;01mexcept\u001b[39;00m ValidationError \u001b[38;5;28;01mas\u001b[39;00m e:\n\u001b[32m    129\u001b[39m         \u001b[38;5;28;01mraise\u001b[39;00m ResponseHandlingException(e)\n\u001b[32m--> \u001b[39m\u001b[32m130\u001b[39m \u001b[38;5;28;01mraise\u001b[39;00m UnexpectedResponse.for_response(response)\n",
+      "\u001b[31mUnexpectedResponse\u001b[39m: Unexpected Response: 404 (Not Found)\nRaw response content:\nb'{\"status\":{\"error\":\"Not found: Collection `my_collection` doesn\\'t exist!\"},\"time\":0.004926893}'"
+     ]
+    }
+   ],
+   "source": [
+    "results = client.query_points(\n",
+    "    collection_name=\"my_collection\",\n",
+    "    query=(-np.ones(384)).tolist(),\n",
+    "    limit=1\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 43,
+   "id": "afd7344b",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "ScoredPoint(id=2, version=3, score=0.9999998, payload={'text': 'Пример документа 2'}, vector=None, shard_key=None, order_value=None)"
+      ]
+     },
+     "execution_count": 43,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "results.points[0]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "8060434c",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "venv",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.13.3"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}

src/db_utils/history_utils.py ADDED Viewed

	@@ -0,0 +1,269 @@

+"""
+Утилиты для работы с историей запросов в PostgreSQL
+Используется на бэкенде для логирования запросов к RAG
+"""
+from datetime import datetime
+from typing import List, Dict, Optional
+import json
+from sqlalchemy import text
+from sqlalchemy.exc import SQLAlchemyError
+from src.config import sql_client
+def init_history_table():
+    """
+    Инициализация таблицы истории запросов
+    Создает таблицу, если она не существует
+    """
+    try:
+        with sql_client.begin() as conn:
+            conn.execute(text("""
+                CREATE TABLE IF NOT EXISTS query_history (
+                    id SERIAL PRIMARY KEY,
+                    timestamp TIMESTAMP NOT NULL DEFAULT NOW(),
+                    dialogue_id VARCHAR(255) NOT NULL,
+                    query TEXT NOT NULL,
+                    answer TEXT NOT NULL,
+                    reason TEXT,
+                    search_period JSONB,
+                    metadata JSONB
+                )
+            """))
+            conn.execute(text("""
+                CREATE INDEX IF NOT EXISTS idx_query_history_dialogue_id
+                ON query_history(dialogue_id)
+            """))
+            conn.execute(text("""
+                CREATE INDEX IF NOT EXISTS idx_query_history_timestamp
+                ON query_history(timestamp DESC)
+            """))
+        print("✅ Таблица query_history инициализирована")
+    except SQLAlchemyError as e:
+        print(f"❌ Ошибка при инициализации таблицы: {e}")
+        raise
+def log_query(
+    query: str,
+    answer: str,
+    reason: str,
+    dialogue_id: Optional[str] = None,
+    search_period: Optional[Dict] = None,
+    metadata_: Optional[Dict] = None
+) -> Optional[int]:
+    """
+    Логировать запрос в историю (вызывается бэкендом после получения ответа от LLM)
+    Args:
+        query: Текст вопроса пользователя
+        answer: Ответ системы
+        reason: Обоснование ответа
+        dialogue_id: ID диалога (опционально)
+        search_period: Период поиска
+        metadata_: Дополнительные метаданные
+    Returns:
+        ID созданной записи или None при ошибке
+    """
+    # Генерируем dialogue_id если не передан
+    if not dialogue_id:
+        dialogue_id = f"single_{datetime.now().strftime('%Y%m%d_%H%M%S_%f')}"
+    try:
+        with sql_client.begin() as conn:
+            result = conn.execute(
+                text("""
+                    INSERT INTO query_history
+                    (timestamp, dialogue_id, query, answer, reason, search_period, metadata)
+                    VALUES (:timestamp, :dialogue_id, :query, :answer, :reason,
+                            CAST(:search_period AS JSONB), CAST(:metadata AS JSONB))
+                    RETURNING id
+                """),
+                {
+                    "timestamp": datetime.now(),
+                    "dialogue_id": dialogue_id,
+                    "query": query,
+                    "answer": answer,
+                    "reason": reason,
+                    "search_period": json.dumps(search_period or {}),
+                    "metadata": json.dumps(metadata_ or {})
+                }
+            )
+            query_id = result.scalar()
+            return query_id
+    except SQLAlchemyError as e:
+        print(f"❌ Ошибка при логировании запроса: {e}")
+        return None
+def get_all_history(limit: int = 100, offset: int = 0) -> List[Dict]:
+    """Получить всю историю запросов"""
+    try:
+        with sql_client.connect() as conn:
+            result = conn.execute(
+                text("""
+                    SELECT id, timestamp, dialogue_id, query, answer, reason,
+                           search_period, metadata
+                    FROM query_history
+                    ORDER BY timestamp DESC
+                    LIMIT :limit OFFSET :offset
+                """),
+                {"limit": limit, "offset": offset}
+            )
+            rows = result.mappings().all()
+            # Конвертируем datetime в ISO строку для JSON сериализации
+            return [
+                {
+                    **dict(row),
+                    "timestamp": row["timestamp"].isoformat() if row["timestamp"] else None
+                }
+                for row in rows
+            ]
+    except SQLAlchemyError as e:
+        print(f"❌ Ошибка при получении истории: {e}")
+        return []
+def get_history_by_dialogue(dialogue_id: str) -> List[Dict]:
+    """Получить историю конк��етного диалога"""
+    try:
+        with sql_client.connect() as conn:
+            result = conn.execute(
+                text("""
+                    SELECT id, timestamp, dialogue_id, query, answer, reason,
+                           search_period, metadata
+                    FROM query_history
+                    WHERE dialogue_id = :dialogue_id
+                    ORDER BY timestamp ASC
+                """),
+                {"dialogue_id": dialogue_id}
+            )
+            rows = result.mappings().all()
+            return [
+                {
+                    **dict(row),
+                    "timestamp": row["timestamp"].isoformat() if row["timestamp"] else None
+                }
+                for row in rows
+            ]
+    except SQLAlchemyError as e:
+        print(f"❌ Ошибка при получении диалога: {e}")
+        return []
+def search_history(search_text: str, limit: int = 50) -> List[Dict]:
+    """Поиск по истории запросов"""
+    try:
+        with sql_client.connect() as conn:
+            result = conn.execute(
+                text("""
+                    SELECT id, timestamp, dialogue_id, query, answer, reason,
+                           search_period, metadata
+                    FROM query_history
+                    WHERE query ILIKE :search_pattern
+                       OR answer ILIKE :search_pattern
+                    ORDER BY timestamp DESC
+                    LIMIT :limit
+                """),
+                {
+                    "search_pattern": f"%{search_text}%",
+                    "limit": limit
+                }
+            )
+            rows = result.mappings().all()
+            return [
+                {
+                    **dict(row),
+                    "timestamp": row["timestamp"].isoformat() if row["timestamp"] else None
+                }
+                for row in rows
+            ]
+    except SQLAlchemyError as e:
+        print(f"❌ Ошибка при поиске в истории: {e}")
+        return []
+def get_history_stats() -> Dict:
+    """Получить статистику по истории запросов"""
+    try:
+        with sql_client.connect() as conn:
+            result = conn.execute(
+                text("""
+                    SELECT
+                        COUNT(*) as total_queries,
+                        COUNT(DISTINCT dialogue_id) as unique_dialogues,
+                        MAX(timestamp) as last_query_time,
+                        MIN(timestamp) as first_query_time
+                    FROM query_history
+                """)
+            )
+            row = result.mappings().first()
+            if row:
+                return {
+                    "total_queries": row["total_queries"],
+                    "unique_dialogues": row["unique_dialogues"],
+                    "last_query_time": row["last_query_time"].isoformat() if row["last_query_time"] else None,
+                    "first_query_time": row["first_query_time"].isoformat() if row["first_query_time"] else None
+                }
+            return {}
+    except SQLAlchemyError as e:
+        print(f"❌ Ошибка при получении статистики: {e}")
+        return {}
+def delete_history(dialogue_id: Optional[str] = None):
+    """Удалить историю"""
+    try:
+        with sql_client.begin() as conn:
+            if dialogue_id:
+                conn.execute(
+                    text("DELETE FROM query_history WHERE dialogue_id = :dialogue_id"),
+                    {"dialogue_id": dialogue_id}
+                )
+                print(f"✅ История диалога {dialogue_id} удалена")
+            else:
+                conn.execute(text("DELETE FROM query_history"))
+                print("✅ Вся история удалена")
+    except SQLAlchemyError as e:
+        print(f"❌ Ошибка при удалении истории: {e}")
+        raise
+def get_recent_dialogues(limit: int = 10) -> List[Dict]:
+    """Получить список последних диалогов"""
+    try:
+        with sql_client.connect() as conn:
+            result = conn.execute(
+                text("""
+                    SELECT
+                        dialogue_id,
+                        COUNT(*) as message_count,
+                        MIN(timestamp) as started_at,
+                        MAX(timestamp) as last_message_at
+                    FROM query_history
+                    GROUP BY dialogue_id
+                    ORDER BY MAX(timestamp) DESC
+                    LIMIT :limit
+                """),
+                {"limit": limit}
+            )
+            rows = result.mappings().all()
+            return [
+                {
+                    "dialogue_id": row["dialogue_id"],
+                    "message_count": row["message_count"],
+                    "started_at": row["started_at"].isoformat() if row["started_at"] else None,
+                    "last_message_at": row["last_message_at"].isoformat() if row["last_message_at"] else None
+                }
+                for row in rows
+            ]
+    except SQLAlchemyError as e:
+        print(f"❌ Ошибка при получении списка диалогов: {e}")
+        return []

src/db_utils/qdrant_utils.py ADDED Viewed

	@@ -0,0 +1,58 @@

+import uuid
+from typing import Literal, Any
+import pandas as pd
+from qdrant_client import models
+from src.config import qdrant_client
+def qdrant_create_index(
+        index_name: str,
+        dim: int,
+        distance: Literal["cosine", "euclid", "manhattan"],
+    ):
+    distance_mode = None
+    match distance:
+        case "cosine":
+            distance_mode = models.Distance.COSINE
+        case "euclid":
+            distance_mode = models.Distance.EUCLID
+        case "manhattan":
+            distance_mode = models.Distance.MANHATTAN
+        case _:
+            return ValueError(distance)
+    return qdrant_client.create_collection(
+        collection_name=index_name,
+        vectors_config=models.VectorParams(
+            size=dim,
+            distance=distance_mode,
+        )
+    )
+def qdrant_insert(df: pd.DataFrame, index_name: str) -> Any:
+    """
+    df.columns == ["doc_id", "text", "vector"]
+    """
+    points = [
+        models.PointStruct(
+            id=str(uuid.uuid4()),  # уникальный id чанка
+            vector=list(row.vector),  # вектор чанкa
+            payload={
+                "doc_id": row.doc_id,  # <--- связь с PostgreSQL
+                "text": row.text,
+            },
+        ) for row in df.itertuples(index=False)
+    ]
+    return qdrant_client.upsert(collection_name=index_name, points=points)
+def qdrant_search(index_name: str, vector: list, limit: int = 5) -> list:
+    return qdrant_client.query_points(
+        collection_name=index_name,
+        query=vector,
+        limit=limit,
+    )

src/db_utils/sql_utils.py ADDED Viewed

	@@ -0,0 +1,92 @@

+from typing import Hashable, Optional, Literal
+import pandas as pd
+from sqlalchemy import text
+from src.config import sql_client
+def sql_drop(table: str):
+    try:
+        with sql_client.begin() as conn:
+            conn.execute(text(f"drop table if exists {table};"))
+    except Exception as e:
+        print("Ошибка:", e)
+def sql_dump_df(
+        df: pd.DataFrame,
+        table: str,
+        if_exists: Literal["replace", "append"] = "append",
+    ) -> Optional[int]:
+    return df.to_sql(table, sql_client, if_exists=if_exists, index=False)
+def sql_get_table(table: str) -> pd.DataFrame:
+    with sql_client.connect() as conn:
+        df = pd.read_sql(f"""select * from {table}""", conn)
+    return df
+def sql_get_by_id(id_: Hashable) -> dict:
+    with sql_client.connect() as conn:
+        row = (
+            conn.execute(
+                text("SELECT * FROM posts WHERE ctid = :id"),
+                {"id": id_},
+            )
+            .mappings()
+            .first()
+        )
+    return row
+def sql_get_by_ids(ids_: Hashable) -> list[dict]:
+    with sql_client.connect() as conn:
+        rows = (
+            conn.execute(
+                text("SELECT * FROM posts WHERE ctid = ANY(:ids)"),
+                {"ids": ids_},
+            )
+            .mappings()
+            .all()
+        )
+    return rows
+def sql_fetch_batch(batch_size: int = 16, offset: int = 0):
+    query = text("""
+        SELECT ctid, content
+        FROM posts
+        ORDER BY ctid
+        LIMIT :limit
+        OFFSET :offset
+    """)
+    with sql_client.connect() as conn:
+        rows = conn.execute(query, {"limit": batch_size, "offset": offset}).mappings().all()
+    return rows
+def sql_get_by_date(message_date: str):
+    with sql_client.connect() as conn:
+        rows = (
+            conn.execute(
+                text(
+                    """
+                    SELECT *
+                    FROM posts
+                    WHERE message_dt = :message_date
+                    """
+                ),
+                {"message_date": message_date},
+            )
+            .mappings()
+            .all()
+        )
+    return rows

src/evaluation/__init__.py ADDED Viewed

	@@ -0,0 +1,16 @@

+"""
+Evaluation module for QA system testing.
+"""
+from .qa_evaluator import (
+    QAEvaluator,
+    QuestionBatchIterator,
+    AnswerEvaluation,
+)
+__all__ = [
+    "QAEvaluator",
+    "QuestionBatchIterator",
+    "AnswerEvaluation",
+]

src/evaluation/__pycache__/__init__.cpython-313.pyc ADDED Viewed

Binary file (358 Bytes). View file

src/evaluation/__pycache__/qa_evaluator.cpython-313.pyc ADDED Viewed

Binary file (11.4 kB). View file

src/evaluation/qa_evaluator.py ADDED Viewed

	@@ -0,0 +1,254 @@

+from langchain_core.output_parsers import PydanticOutputParser
+from langchain_core.prompts import ChatPromptTemplate
+from langchain_openai import ChatOpenAI
+from pydantic import BaseModel, Field
+import pandas as pd
+class AnswerEvaluation(BaseModel):
+    is_valid: bool = Field(
+        description="Является ли ответ валидным и корректным относительно вопроса и оригинального текста"
+    )
+    relevance_score: float = Field(
+        description="Оценка релевантности ответа вопросу от 0.0 до 1.0",
+        ge=0.0,
+        le=1.0
+    )
+    completeness_score: float = Field(
+        description="Оценка полноты ответа от 0.0 до 1.0 (насколько ответ покрывает всю необходимую информацию)",
+        ge=0.0,
+        le=1.0
+    )
+    factual_accuracy_score: float = Field(
+        description="Оценка фактической точности ответа от 0.0 до 1.0 (соответствие фактам из оригинального текста)",
+        ge=0.0,
+        le=1.0
+    )
+class QuestionBatchIterator:
+    def __init__(self, questions, batch_size):
+        self.questions = questions
+        self.batch_size = batch_size
+        self.current_idx = 0
+    def __iter__(self):
+        return self
+    def __next__(self):
+        if self.current_idx >= len(self.questions):
+            raise StopIteration
+        batch = self.questions[self.current_idx:self.current_idx + self.batch_size]
+        self.current_idx += self.batch_size
+        return batch
+    def __len__(self):
+        return (len(self.questions) + self.batch_size - 1) // self.batch_size
+    def reset(self):
+        self.current_idx = 0
+class QAEvaluator:
+    def __init__(
+        self,
+        df,
+        text_column="original_text",
+        model="qwen/qwen3-next-80b-a3b-instruct",
+        temperature=0.0,
+        api_key=None,
+        api_base="https://api.proxyapi.ru/openrouter/v1"
+    ):
+        self.df = df.copy()
+        self.original_text_column = text_column
+        self.api_key = api_key
+        self.llm = ChatOpenAI(
+            model=model,
+            temperature=temperature,
+            openai_api_key=self.api_key,
+            openai_api_base=api_base,
+        )
+        self._setup_evaluation_agent()
+        self._current_question_column = None
+        self._questions_data = None
+    def _setup_evaluation_agent(self):
+        self.parser = PydanticOutputParser(pydantic_object=AnswerEvaluation)
+        self.prompt = ChatPromptTemplate.from_messages([
+            ("system", """Ты - эксперт по оценке качества ответов на вопросы по новостным текстам.
+Твоя задача - оценить, насколько ответ корректен и полон относительно заданного вопроса и оригинального текста.
+## Критерии оценки:
+### is_valid (валидность):
+- True: ответ корректно отвечает на вопрос и соответствует фактам из текста
+- False: ответ неверный, не по теме, или содержит фактические ошибки
+### relevance_score (релевантность, 0.0-1.0):
+- 1.0: ответ полностью по теме вопроса
+- 0.5: ответ частично по теме
+- 0.0: ответ не имеет отношения к вопросу
+### completeness_score (полнота, 0.0-1.0):
+- 1.0: ответ содержит всю необходимую информацию
+- 0.5: ответ содержит часть информации
+- 0.0: ответ пустой или не содержит нужной информации
+### factual_accuracy_score (фактическая точность, 0.0-1.0):
+- 1.0: все факты в ответе соответствуют оригинальному тексту
+- 0.5: есть небольшие неточности
+- 0.0: факты в ответе противоречат оригинальному тексту
+{format_instructions}"""),
+            ("human", """Оцени следующий ответ:
+## Оригинальный текст поста:
+{original_text}
+## Вопрос:
+{question}
+## Ответ для оценки:
+{answer}
+Проанализируй и выдай оценку.""")
+        ])
+        self.evaluation_chain = self.prompt | self.llm | self.parser
+    def get_questions(self, question_column, batch_size=10):
+        if question_column not in self.df.columns:
+            raise ValueError(f"Колонка '{question_column}' не найдена в DataFrame. "
+                           f"Доступные колонки: {list(self.df.columns)}")
+        self._current_question_column = question_column
+        self._questions_data = []
+        for idx, row in self.df.iterrows():
+            self._questions_data.append({
+                "index": idx,
+                "question": row[question_column],
+                "original_text": row[self.original_text_column]
+            })
+        questions = [item["question"] for item in self._questions_data]
+        return QuestionBatchIterator(questions, batch_size)
+    def evaluate_answers(self, answers, show_progress=True):
+        if self._questions_data is None:
+            raise ValueError("Сначала вызовите get_questions() для получения вопросов")
+        if len(answers) != len(self._questions_data):
+            raise ValueError(
+                f"Количество ответов ({len(answers)}) не совпадает с количеством "
+                f"вопросов ({len(self._questions_data)})"
+            )
+        total_questions = len(answers)
+        valid_answers = 0
+        invalid_answers = 0
+        detailed_results = []
+        relevance_scores = []
+        completeness_scores = []
+        factual_accuracy_scores = []
+        if show_progress:
+            from tqdm import tqdm
+            iterator = tqdm(
+                zip(self._questions_data, answers),
+                total=len(answers),
+                desc="Оценка ответов"
+            )
+        else:
+            iterator = zip(self._questions_data, answers)
+        for qa_data, answer in iterator:
+            try:
+                evaluation = self._evaluate_single_answer(
+                    original_text=qa_data["original_text"],
+                    question=qa_data["question"],
+                    answer=answer
+                )
+                if evaluation.is_valid:
+                    valid_answers += 1
+                else:
+                    invalid_answers += 1
+                relevance_scores.append(evaluation.relevance_score)
+                completeness_scores.append(evaluation.completeness_score)
+                factual_accuracy_scores.append(evaluation.factual_accuracy_score)
+                detailed_results.append({
+                    "index": qa_data["index"],
+                    "question": qa_data["question"],
+                    "answer": answer,
+                    "is_valid": evaluation.is_valid,
+                    "relevance_score": evaluation.relevance_score,
+                    "completeness_score": evaluation.completeness_score,
+                    "factual_accuracy_score": evaluation.factual_accuracy_score,
+                })
+            except Exception as e:
+                print(f"Ошибка при оценке ответа: {e}")
+                invalid_answers += 1
+                relevance_scores.append(0.0)
+                completeness_scores.append(0.0)
+                factual_accuracy_scores.append(0.0)
+                detailed_results.append({
+                    "index": qa_data["index"],
+                    "question": qa_data["question"],
+                    "answer": answer,
+                    "is_valid": False,
+                    "relevance_score": 0.0,
+                    "completeness_score": 0.0,
+                    "factual_accuracy_score": 0.0
+                })
+        avg_relevance = sum(relevance_scores) / len(relevance_scores) if relevance_scores else 0.0
+        avg_completeness = sum(completeness_scores) / len(completeness_scores) if completeness_scores else 0.0
+        avg_factual_accuracy = sum(factual_accuracy_scores) / len(factual_accuracy_scores) if factual_accuracy_scores else 0.0
+        accuracy = valid_answers / total_questions if total_questions > 0 else 0.0
+        combined_score = (avg_relevance + avg_completeness + avg_factual_accuracy) / 3
+        return {
+            "total_questions": total_questions,
+            "valid_answers": valid_answers,
+            "invalid_answers": invalid_answers,
+            "accuracy": accuracy,
+            "avg_relevance": avg_relevance,
+            "avg_completeness": avg_completeness,
+            "avg_factual_accuracy": avg_factual_accuracy,
+            "combined_score": combined_score,
+            "detailed_results": detailed_results,
+        }
+    def _evaluate_single_answer(self, original_text, question, answer):
+        if answer is None or (isinstance(answer, str) and answer.strip() == ""):
+            return AnswerEvaluation(
+                is_valid=False,
+                relevance_score=0.0,
+                completeness_score=0.0,
+                factual_accuracy_score=0.0,
+            )
+        result = self.evaluation_chain.invoke({
+            "original_text": original_text,
+            "question": question,
+            "answer": answer,
+            "format_instructions": self.parser.get_format_instructions()
+        })
+        return result
+    def get_detailed_results_df(self, metrics):
+        return pd.DataFrame(metrics["detailed_results"])

src/evaluation/score_system.ipynb ADDED Viewed

	@@ -0,0 +1,687 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "477f0fa2",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "True"
+      ]
+     },
+     "execution_count": 1,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "import pandas as pd\n",
+    "import os \n",
+    "from dotenv import load_dotenv\n",
+    "from tqdm import tqdm\n",
+    "\n",
+    "load_dotenv()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "ce00fa3f-b017-4dd9-b39b-fc106ff59c61",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import sys\n",
+    "from pathlib import Path\n",
+    "\n",
+    "SRC_ROOT = Path().resolve().parents[1]\n",
+    "\n",
+    "sys.path.insert(0, str(SRC_ROOT))\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "28a9a5e2",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/Users/kirill/rag_tg_2025/env/lib/python3.12/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+      "  from .autonotebook import tqdm as notebook_tqdm\n",
+      "/Users/kirill/rag_tg_2025/src/config.py:41: UserWarning: Qdrant client version 1.16.2 is incompatible with server version 1.14.1. Major versions should match and minor version difference must not exceed 1. Set check_compatibility=False to skip version check.\n",
+      "  qdrant_client = QdrantClient(url=QDRANT_URL)\n"
+     ]
+    }
+   ],
+   "source": [
+    "from src.evaluation.qa_evaluator import QAEvaluator\n",
+    "from src.rag.rag import RAG"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "id": "8c548b19-ad11-4515-95dc-1ae687baaff7",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "rag = RAG(\n",
+    "    embed_model_name = \"Qwen/Qwen3-Embedding-0.6B\",\n",
+    "    embed_index_name = \"recursive_Qwen3-Embedding-0.6B\"\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "b12d7862-83e2-4fde-a322-892512303e25",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "test_cases = pd.read_csv(r'/Users/kirill/rag_tg_2025/src/dataset/test_cases.csv')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "05fc2a82-27d4-4103-9044-a5b0298956f4",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>message_id</th>\n",
+       "      <th>original_text</th>\n",
+       "      <th>strict_question</th>\n",
+       "      <th>real_question</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>130738</td>\n",
+       "      <td>Итальянский суд принял решение экстрадировать ...</td>\n",
+       "      <td>Какое решение приняло итальянское судопроизвод...</td>\n",
+       "      <td>Что там с Кузнецовым — его в Германию выдадут ...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>129361</td>\n",
+       "      <td>Пять пассажиров автобуса №793 пострадали в ДТП...</td>\n",
+       "      <td>Сколько пассажиров автобуса №793 пострадали в ...</td>\n",
+       "      <td>Сколько человек в автобусе 793 пострадали, ког...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>133468</td>\n",
+       "      <td>Владимир Путин утвердил концепцию государствен...</td>\n",
+       "      <td>Кто утвердил концепцию государственной миграци...</td>\n",
+       "      <td>Кто там утвердил новую миграционную концепцию ...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>123139</td>\n",
+       "      <td>Генпрокуратура и Минюст подали в Верховный суд...</td>\n",
+       "      <td>Какое юридическое действие предприняли Генерал...</td>\n",
+       "      <td>Что Генпрокуратура и Минюст сделали с сатанист...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>129894</td>\n",
+       "      <td>Обломки дрона обнаружили польские пограничники...</td>\n",
+       "      <td>Где и кем был обнаружен непилотируемый летател...</td>\n",
+       "      <td>Что там польские пограничники нашли рядом с Бе...</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "   message_id                                      original_text  \\\n",
+       "0      130738  Итальянский суд принял решение экстрадировать ...   \n",
+       "1      129361  Пять пассажиров автобуса №793 пострадали в ДТП...   \n",
+       "2      133468  Владимир Путин утвердил концепцию государствен...   \n",
+       "3      123139  Генпрокуратура и Минюст подали в Верховный суд...   \n",
+       "4      129894  Обломки дрона обнаружили польские пограничники...   \n",
+       "\n",
+       "                                     strict_question  \\\n",
+       "0  Какое решение приняло итальянское судопроизвод...   \n",
+       "1  Сколько пассажиров автобуса №793 пострадали в ...   \n",
+       "2  Кто утвердил концепцию государственной миграци...   \n",
+       "3  Какое юридическое действие предприняли Генерал...   \n",
+       "4  Где и кем был обнаружен непилотируемый летател...   \n",
+       "\n",
+       "                                       real_question  \n",
+       "0  Что там с Кузнецовым — его в Германию выдадут ...  \n",
+       "1  Сколько человек в автобусе 793 пострадали, ког...  \n",
+       "2  Кто там утвердил новую миграционную концепцию ...  \n",
+       "3  Что Генпрокуратура и Минюст сделали с сатанист...  \n",
+       "4  Что там польские пограничники нашли рядом с Бе...  "
+      ]
+     },
+     "execution_count": 6,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "test_cases.head()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "93c8f6dc-b210-43b6-ba0d-f555a82e1c93",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "evaluator = QAEvaluator(\n",
+    "    df=test_cases,\n",
+    "    text_column=\"original_text\",\n",
+    "    temperature=0.0,\n",
+    "    api_key=os.getenv(\"OPENROUTER_API_KEY\")\n",
+    ")\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "id": "4e5b93dd-98a2-44ae-862b-41af1ed9f15d",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Всего батчей: 11\n"
+     ]
+    }
+   ],
+   "source": [
+    "batch_size = 16\n",
+    "question_iterator = evaluator.get_questions(\n",
+    "    question_column=\"strict_question\",  # или \"real_question\"\n",
+    "    batch_size=batch_size\n",
+    ")\n",
+    "\n",
+    "print(f\"Всего батчей: {len(question_iterator)}\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "id": "ffc71d69-c387-4cb4-8dc9-23c197398440",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "100%|█████████████████████████████████████████████████████████████████████████████████| 167/167 [09:47<00:00,  3.52s/it]\n"
+     ]
+    }
+   ],
+   "source": [
+    "generated_answers = []\n",
+    "\n",
+    "for query in tqdm(test_cases[\"real_question\"]):\n",
+    "    results = rag.invoke(query)\n",
+    "    generated_answers.append(\n",
+    "        (results[\"answer\"], results[\"reason\"])\n",
+    "    )"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "id": "117fabac-a952-40f6-ad3d-0cf74994040d",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>message_id</th>\n",
+       "      <th>original_text</th>\n",
+       "      <th>strict_question</th>\n",
+       "      <th>real_question</th>\n",
+       "      <th>generated_answer</th>\n",
+       "      <th>generated_reason</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>130738</td>\n",
+       "      <td>Итальянский суд принял решение экстрадировать ...</td>\n",
+       "      <td>Какое решение приняло итальянское судопроизвод...</td>\n",
+       "      <td>Что там с Кузнецовым — его в Германию выдадут ...</td>\n",
+       "      <td>Нет, его не выдадут в Германию — решение об эк...</td>\n",
+       "      <td>Кассационный суд Италии отменил решение апелля...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>129361</td>\n",
+       "      <td>Пять пассажиров автобуса №793 пострадали в ДТП...</td>\n",
+       "      <td>Сколько пассажиров автобуса №793 пострадали в ...</td>\n",
+       "      <td>Сколько человек в автобусе 793 пострадали, ког...</td>\n",
+       "      <td>Пять</td>\n",
+       "      <td>В контексте в первом пункте указано, что пять ...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>133468</td>\n",
+       "      <td>Владимир Путин утвердил концепцию государствен...</td>\n",
+       "      <td>Кто утвердил концепцию государственной миграци...</td>\n",
+       "      <td>Кто там утвердил новую миграционную концепцию ...</td>\n",
+       "      <td>Владимир Путин</td>\n",
+       "      <td>В контексте в первом пункте прямо указано, что...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>123139</td>\n",
+       "      <td>Генпрокуратура и Минюст подали в Верховный суд...</td>\n",
+       "      <td>Какое юридическое действие предприняли Генерал...</td>\n",
+       "      <td>Что Генпрокуратура и Минюст сделали с сатанист...</td>\n",
+       "      <td>Генпрокуратура и Минюст подали в Верховный суд...</td>\n",
+       "      <td>В контексте указано, что Генеральная прокурату...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>129894</td>\n",
+       "      <td>Обломки дрона обнаружили польские пограничники...</td>\n",
+       "      <td>Где и кем был обнаружен непилотируемый летател...</td>\n",
+       "      <td>Что там польские пограничники нашли рядом с Бе...</td>\n",
+       "      <td>Да, польские пограничники нашли дрон с надпися...</td>\n",
+       "      <td>Согласно контексту (пункт 1), обломки дрона об...</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "   message_id                                      original_text  \\\n",
+       "0      130738  Итальянский суд принял решение экстрадировать ...   \n",
+       "1      129361  Пять пассажиров автобуса №793 пострадали в ДТП...   \n",
+       "2      133468  Владимир Путин утвердил концепцию государствен...   \n",
+       "3      123139  Генпрокуратура и Минюст подали в Верховный суд...   \n",
+       "4      129894  Обломки дрона обнаружили польские пограничники...   \n",
+       "\n",
+       "                                     strict_question  \\\n",
+       "0  Какое решение приняло итальянское судопроизвод...   \n",
+       "1  Сколько пассажиров автобуса №793 пострадали в ...   \n",
+       "2  Кто утвердил концепцию государственной миграц��...   \n",
+       "3  Какое юридическое действие предприняли Генерал...   \n",
+       "4  Где и кем был обнаружен непилотируемый летател...   \n",
+       "\n",
+       "                                       real_question  \\\n",
+       "0  Что там с Кузнецовым — его в Германию выдадут ...   \n",
+       "1  Сколько человек в автобусе 793 пострадали, ког...   \n",
+       "2  Кто там утвердил новую миграционную концепцию ...   \n",
+       "3  Что Генпрокуратура и Минюст сделали с сатанист...   \n",
+       "4  Что там польские пограничники нашли рядом с Бе...   \n",
+       "\n",
+       "                                    generated_answer  \\\n",
+       "0  Нет, его не выдадут в Германию — решение об эк...   \n",
+       "1                                               Пять   \n",
+       "2                                     Владимир Путин   \n",
+       "3  Генпрокуратура и Минюст подали в Верховный суд...   \n",
+       "4  Да, польские пограничники нашли дрон с надпися...   \n",
+       "\n",
+       "                                    generated_reason  \n",
+       "0  Кассационный суд Италии отменил решение апелля...  \n",
+       "1  В контексте в первом пункте указано, что пять ...  \n",
+       "2  В контексте в первом пункте прямо указано, что...  \n",
+       "3  В контексте указано, что Генеральная прокурату...  \n",
+       "4  Согласно контексту (пункт 1), обломки дрона об...  "
+      ]
+     },
+     "execution_count": 11,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "test_cases[\"generated_answer\"] = [p[0] for p in generated_answers]\n",
+    "test_cases[\"generated_reason\"] = [p[1] for p in generated_answers]\n",
+    "test_cases.head()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "id": "5e32d246-9a16-4ffc-95c8-542a400efe33",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Оценка ответов:   4%|██▊                                                                | 7/167 [00:18<10:24,  3.90s/it]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Ошибка при оценке ответа: Failed to parse AnswerEvaluation from completion {}. Got: 4 validation errors for AnswerEvaluation\n",
+      "is_valid\n",
+      "  Field required [type=missing, input_value={}, input_type=dict]\n",
+      "    For further information visit https://errors.pydantic.dev/2.9/v/missing\n",
+      "relevance_score\n",
+      "  Field required [type=missing, input_value={}, input_type=dict]\n",
+      "    For further information visit https://errors.pydantic.dev/2.9/v/missing\n",
+      "completeness_score\n",
+      "  Field required [type=missing, input_value={}, input_type=dict]\n",
+      "    For further information visit https://errors.pydantic.dev/2.9/v/missing\n",
+      "factual_accuracy_score\n",
+      "  Field required [type=missing, input_value={}, input_type=dict]\n",
+      "    For further information visit https://errors.pydantic.dev/2.9/v/missing\n",
+      "For troubleshooting, visit: https://python.langchain.com/docs/troubleshooting/errors/OUTPUT_PARSING_FAILURE \n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Оценка ответов: 100%|█████████████████████████████████████████████████████████████████| 167/167 [03:53<00:00,  1.40s/it]\n"
+     ]
+    }
+   ],
+   "source": [
+    "answers = test_cases[\"generated_answer\"]\n",
+    "metrics = evaluator.evaluate_answers(answers, show_progress=True)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "id": "342b07de-a8e5-4336-a83d-611abd192aff",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>total_questions</th>\n",
+       "      <th>valid_answers</th>\n",
+       "      <th>accuracy</th>\n",
+       "      <th>avg_relevance</th>\n",
+       "      <th>avg_completeness</th>\n",
+       "      <th>avg_factual_accuracy</th>\n",
+       "      <th>combined_score</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>167</td>\n",
+       "      <td>125</td>\n",
+       "      <td>0.748503</td>\n",
+       "      <td>0.879641</td>\n",
+       "      <td>0.697605</td>\n",
+       "      <td>0.805389</td>\n",
+       "      <td>0.794212</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "   total_questions  valid_answers  accuracy  avg_relevance  avg_completeness  \\\n",
+       "0              167            125  0.748503       0.879641          0.697605   \n",
+       "\n",
+       "   avg_factual_accuracy  combined_score  \n",
+       "0              0.805389        0.794212  "
+      ]
+     },
+     "execution_count": 13,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "metrics_df = pd.DataFrame(\n",
+    "    data=[(\n",
+    "        metrics[\"total_questions\"], metrics[\"valid_answers\"], metrics[\"accuracy\"],\\\n",
+    "        metrics[\"avg_relevance\"], metrics[\"avg_completeness\"], metrics[\"avg_factual_accuracy\"], \\\n",
+    "        metrics[\"combined_score\"]\n",
+    "          )],\n",
+    "    columns=[\"total_questions\", \"valid_answers\", \"accuracy\", \"avg_relevance\", \"avg_completeness\", \\\n",
+    "            \"avg_factual_accuracy\", \"combined_score\"]\n",
+    ")\n",
+    "metrics_df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 32,
+   "id": "488b4f03-556a-42a5-811a-1fbe36c5f7be",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>index</th>\n",
+       "      <th>question</th>\n",
+       "      <th>answer</th>\n",
+       "      <th>is_valid</th>\n",
+       "      <th>relevance_score</th>\n",
+       "      <th>completeness_score</th>\n",
+       "      <th>factual_accuracy_score</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>112</th>\n",
+       "      <td>112</td>\n",
+       "      <td>На каком уровне оказалась цена нефти марки Ura...</td>\n",
+       "      <td>Да, цена российской нефти марки Urals в Новоро...</td>\n",
+       "      <td>True</td>\n",
+       "      <td>1.0</td>\n",
+       "      <td>0.5</td>\n",
+       "      <td>1.0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>37</th>\n",
+       "      <td>37</td>\n",
+       "      <td>Согласно официальному сообщению Росавиации, ка...</td>\n",
+       "      <td>В аэропорту Ярославля введены временные ограни...</td>\n",
+       "      <td>True</td>\n",
+       "      <td>1.0</td>\n",
+       "      <td>1.0</td>\n",
+       "      <td>1.0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>140</th>\n",
+       "      <td>140</td>\n",
+       "      <td>По какому инциденту Следственный комитет Росси...</td>\n",
+       "      <td>Следственный комитет завел уголовное дело по ф...</td>\n",
+       "      <td>True</td>\n",
+       "      <td>1.0</td>\n",
+       "      <td>1.0</td>\n",
+       "      <td>1.0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>0</td>\n",
+       "      <td>Какое решение приняло итальянское судопроизвод...</td>\n",
+       "      <td>Не знаю.</td>\n",
+       "      <td>False</td>\n",
+       "      <td>0.5</td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>0.0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>98</th>\n",
+       "      <td>98</td>\n",
+       "      <td>Что произошло на фестивале в Пенсильвании, США...</td>\n",
+       "      <td>На фестивале в Пенсильвании минивэн въехал в т...</td>\n",
+       "      <td>True</td>\n",
+       "      <td>1.0</td>\n",
+       "      <td>1.0</td>\n",
+       "      <td>1.0</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "     index                                           question  \\\n",
+       "112    112  На каком уровне оказалась цена нефти марки Ura...   \n",
+       "37      37  Согласно официальному сообщению Росавиации, ка...   \n",
+       "140    140  По какому инциденту Следственный комитет Росси...   \n",
+       "0        0  Какое решение приняло итальянское судопроизвод...   \n",
+       "98      98  Что произошло на фестивале в Пенсильвании, США...   \n",
+       "\n",
+       "                                                answer  is_valid  \\\n",
+       "112  Да, цена российской нефти марки Urals в Новоро...      True   \n",
+       "37   В аэропорту Ярославля введены временные ограни...      True   \n",
+       "140  Следственный комитет завел уголовное дело по ф...      True   \n",
+       "0                                             Не знаю.     False   \n",
+       "98   На фестивале в Пенсильвании минивэн въехал в т...      True   \n",
+       "\n",
+       "     relevance_score  completeness_score  factual_accuracy_score  \n",
+       "112              1.0                 0.5                     1.0  \n",
+       "37               1.0                 1.0                     1.0  \n",
+       "140              1.0                 1.0                     1.0  \n",
+       "0                0.5                 0.0                     0.0  \n",
+       "98               1.0                 1.0                     1.0  "
+      ]
+     },
+     "execution_count": 32,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "pd.DataFrame(metrics[\"detailed_results\"]).sample(5)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "731e781a",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "76ed2ec5",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.12.12"
+  },
+  "toc": {
+   "base_numbering": 1,
+   "nav_menu": {},
+   "number_sections": true,
+   "sideBar": true,
+   "skip_h1_title": false,
+   "title_cell": "Table of Contents",
+   "title_sidebar": "Contents",
+   "toc_cell": false,
+   "toc_position": {},
+   "toc_section_display": true,
+   "toc_window_display": false
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}

src/parser/__pycache__/__init__.cpython-313.pyc ADDED Viewed

Binary file (151 Bytes). View file

src/parser/__pycache__/pyrosource.cpython-313.pyc ADDED Viewed

Binary file (2.48 kB). View file

src/rag/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ from .rag import RAG

src/rag/__pycache__/__init__.cpython-313.pyc ADDED Viewed

Binary file (182 Bytes). View file

src/rag/__pycache__/llm.cpython-313.pyc ADDED Viewed

Binary file (545 Bytes). View file

src/rag/__pycache__/question_enricher.cpython-313.pyc ADDED Viewed

Binary file (5.77 kB). View file

src/rag/__pycache__/rag.cpython-313.pyc ADDED Viewed

Binary file (4.53 kB). View file

src/rag/__pycache__/retriever.cpython-313.pyc ADDED Viewed

Binary file (1.8 kB). View file

src/rag/llm.py ADDED Viewed

	@@ -0,0 +1,13 @@

+from langchain_openai import ChatOpenAI
+def get_model(api_key: str, model: str):
+    llm = ChatOpenAI(
+        model=model,
+        max_retries=2,
+        openai_api_key=api_key,
+        openai_api_base="https://api.proxyapi.ru/openrouter/v1",
+    )
+    llm.verbose = False
+    return llm

src/rag/question_enricher.py ADDED Viewed

	@@ -0,0 +1,99 @@

+"""
+Question Enricher Agent
+Обогащает вопрос пользователя контекстом из истории диалога
+Заменяет местоимения и ссылки на конкретные сущности
+"""
+from typing import List, Dict, Optional
+from pydantic import BaseModel, Field
+from langchain_core.prompts import ChatPromptTemplate
+from langchain_core.output_parsers import JsonOutputParser
+from langchain_core.prompts.chat import SystemMessagePromptTemplate, HumanMessagePromptTemplate
+from langchain_core.exceptions import OutputParserException
+from pydantic import ValidationError
+from src.rag.llm import get_model
+from src.config import LLM_API_KEY, LLM
+class EnrichedQuestion(BaseModel):
+    enriched_question: str = Field(
+        ...,
+        min_length=1,
+        description="Обогащенный вопрос с заменой местоимений и добавлением контекста"
+    )
+class QuestionEnricher:
+    """
+    Агент для обогащения вопросов контекстом из истории диалога.
+    Заменяет местоимения (он, она, это, там) и неполные ссылки на конкретные сущности.
+    """
+    def __init__(self):
+        self.llm = get_model(LLM_API_KEY, LLM)
+        self.parser = JsonOutputParser(pydantic_object=EnrichedQuestion)
+        self.prompt = ChatPromptTemplate.from_messages([
+            HumanMessagePromptTemplate.from_template(
+                "Ты помощник, который обогащает вопросы пользователя контекстом из истории диалога.\n"
+                "Твоя задача:\n"
+                "1. Заменить местоимения (он, она, оно, они, это, то, там, тогда и т.д.) на конкретные сущности из истории общения с пользователем\n"
+                "2. Дополнить неполные вопросы (например, 'А вчера?' -> 'Какой был курс доллара вчера?')\n"
+                "3. Сделать вопрос самодостаточным и понятным без контекста истории\n"
+                "4. Сохранить смысл и намерение пользователя\n\n"
+                "Если вопрос уже полный и не требует обогащения, верни его без изменений.\n"
+                "Если не получается понять, как правильно обогатить какую-то часть вопроса, то ее следует оставить неизмененной."
+            ),
+            HumanMessagePromptTemplate.from_template(
+                "{format_instructions}\n\n"
+                "История диалога:\n{history}\n\n"
+                "Новый вопрос пользователя: {question}\n\n"
+                "Обогати вопрос контекстом из истории."
+            )
+        ])
+        self.chain = self.prompt | self.llm | self.parser
+    def _format_history(self, history: List[Dict]) -> str:
+        """Format chat history for the prompt"""
+        if not history:
+            return "История диалога пуста."
+        history_text = ""
+        for i, msg in enumerate(history, 1):
+            history_text += f"[{i}] Пользователь: {msg.get('query', '')}\n"
+            history_text += f"    Ответ: {msg.get('answer', '')}\n\n"
+        return history_text.strip()
+    def enrich(self, question: str, history: Optional[List[Dict]] = None) -> Dict[str, str]:
+        """
+        Enrich question with context from history
+        Args:
+            question: Original user question
+            history: List of previous messages [{"query": "...", "answer": "..."}, ...]
+        Returns:
+            Dict with enriched_question and explanation
+        """
+        # If no history, return original question
+        if not history or len(history) == 0:
+            return question
+        try:
+            # Format history
+            history_text = self._format_history(history)
+            # Invoke chain
+            result = self.chain.invoke({
+                "history": history_text,
+                "question": question,
+                "format_instructions": self.parser.get_format_instructions()
+            })
+            return result.get("enriched_question", question)
+        except Exception as e:
+            # On any other error, return original question
+            return question

src/rag/rag.py ADDED Viewed

	@@ -0,0 +1,90 @@

+from pydantic import BaseModel, Field
+from typing import List, Dict, Optional
+from langchain_core.prompts import ChatPromptTemplate
+from langchain_core.prompts.chat import SystemMessagePromptTemplate, HumanMessagePromptTemplate
+from langchain_core.output_parsers import JsonOutputParser
+from langchain_core.runnables import RunnablePassthrough
+from langchain_core.exceptions import OutputParserException
+from pydantic import ValidationError
+from src.rag.retriever import Retriever
+from src.rag.llm import get_model
+from src.rag.question_enricher import QuestionEnricher
+from src.config import LLM_API_KEY, LLM, CHAT_HISTORY_LENGTH, ENABLE_QUESTION_ENRICHMENT
+class LLMResponse(BaseModel):
+    answer: str = Field(..., min_length=1, description="Прямой точный ответ на вопрос")
+    reason: str = Field(..., min_length=1, description="Объяснение, почему ответ именно такой")
+class RAG:
+    def __init__(self, embed_model_name: str, embed_index_name: str):
+        self.retriever = Retriever(embed_model_name, embed_index_name)
+        self.parser = JsonOutputParser(pydantic_object=LLMResponse)
+        self.llm = get_model(LLM_API_KEY, LLM)
+        self.history_length = CHAT_HISTORY_LENGTH
+        self.enable_enrichment = ENABLE_QUESTION_ENRICHMENT
+        self.prompt = ChatPromptTemplate.from_messages([
+            SystemMessagePromptTemplate.from_template(
+                "Ты полезный и точный ассистент. "
+                "Ответь на вопрос, опираясь ТОЛЬКО на предложенный контекст. "
+                "Если в контексте нет ответа, ответь \"Не знаю.\""
+            ),
+            HumanMessagePromptTemplate.from_template(
+                "{format_instructions}\n\n"
+                "Контекст:\n{context}\n\n"
+                "Вопрос: {question}"
+            ),
+        ])
+        # Initialize question enricher if enabled
+        if self.enable_enrichment:
+            self.question_enricher = QuestionEnricher()
+        else:
+            self.question_enricher = None
+    def invoke(self, query: str, history: Optional[List[Dict]] = None):
+        """
+        Invoke RAG with optional chat history
+        Args:
+            query: User question
+            history: List of previous messages [{"query": "...", "answer": "..."}, ...]
+        """
+        try:
+            # Enrich question with context from history if enabled
+            enriched_query = query
+            if self.enable_enrichment and self.question_enricher and history:
+                # Use last N messages for enrichment
+                recent_history = history[-self.history_length:] if len(history) > self.history_length else history
+                enriched_query = self.question_enricher.enrich(query, recent_history)
+            # Get context from retriever using enriched query
+            context = self.retriever.chain.invoke(enriched_query)
+            # Build chain
+            chain = (
+                self.prompt
+                | self.llm
+                | self.parser
+            )
+            # Invoke with enriched question
+            result = chain.invoke({
+                "context": context,
+                "question": enriched_query,  # Use enriched question
+                "format_instructions": self.parser.get_format_instructions(),
+            })
+            return result
+        except (OutputParserException, ValidationError) as e:
+            return LLMResponse(
+                answer="Не знаю.",
+                reason="Модель не смогла вернуть ответ в корректном формате."
+            )

src/rag/retriever.py ADDED Viewed

	@@ -0,0 +1,27 @@

+from langchain_core.runnables import RunnableLambda
+from langchain_huggingface.embeddings import HuggingFaceEmbeddings
+from src.db_utils.qdrant_utils import qdrant_search
+class Retriever:
+    def __init__(self, embed_model_name: str, embed_index_name: str):
+        self.embed_model = HuggingFaceEmbeddings(
+            model_name=embed_model_name,
+            encode_kwargs={"normalize_embeddings": True},
+        )
+        self.embed_index_name = embed_index_name
+        self.chain = RunnableLambda(self._retrieve)
+    def _retrieve(self, query: str) -> str:
+        docs = qdrant_search(
+            self.embed_index_name,
+            self.embed_model.embed_query(query),
+        )
+        return "\n".join(
+            f"{i}) {doc.payload['text']}"
+            for i, doc in enumerate(docs.points, 1)
+        )